目次
概要
前提条件
CJK データが格納されているデータベースでの全文検索の設定および実行
サンプル・データベースの起動とサンプル・データの表示
テキスト構成オブジェクトとテキスト・インデックスの作成およびテスト
新しいテキスト・インデックスの作成およびテスト
テキスト・インデックスおよびテキスト構成オブジェクトの削除
まとめ
概要
このマニュアルでは、CJK (Chinese, Japanese, and Korean :中国語、日本語、韓国語) データが格納されているデータベースで全文検索を実行するための手順と補足情報について説明します。
SQL Anywhere データベースでは、MBCS (multi-byte character set :マルチバイト文字セット) データをカラムに格納する際に、NCHAR、NVARCHAR、または LONG NVARCHAR のデータ型を使用できます。それ以外のデータ型 (CHAR、VARCHAR、および LONG VARCHAR など) を使用してカラムに CJK データを格納するには、データベースの作成時に以下のいずれかの照合を使用する必要があります。
言語 | Windows照合 | Unix照合 |
Japanese | 932JPN | EUC_JAPAN |
Korean | 949KOR | EUC_KOREA |
Chinese(Simplified) | 936ZHO | EUC_CHINA |
Chinese (Traditional – Hong Kong) | 950ZHO_HK | EUC_TAIWAN |
Chinese (Traditional – Taiwan) | 950ZHO_TW | EUC_TAIWAN |
Multiple languages | UTF8BIN | UTF8BIN |
Multiple languages | UCA | UCA |
default_char テキスト構成オブジェクトから設定を継承するテキスト構成オブジェクトを使用してテキスト・インデックスが作成される場合、CHAR データベース照合を使用して文字のデータ型のソートと比較が行われます。NCHAR、NVARCHAR、または LONG NVARCHAR のデータ型が格納されているカラムでは、CHAR 照合を使用するテキスト・インデックスを作成することはできません。初期化ユーティリティ (dbinit) の -zオプションを使用して、CHAR データベース照合の照合順序を指定します。
default_nchar テキスト構成オブジェクトから設定を継承するテキスト構成オブジェクトを使用してテキスト・インデックスが作成される場合、NCHAR データベース照合を使用して文字のデータ型のソートと比較が行われます。NCHAR 照合を使用するテキスト・インデックスは、どのようなデータ型のカラムでも作成することができます。ただし、NCHAR 照合を使用して作成されたテキスト・インデックスを使用する場合、データ変換により、CHAR、VARCHAR、および LONG VARCHAR のデータ型が格納されているカラムのインデックス付けのパフォーマンスに影響を及ぼす可能性があります。同じ CHAR および NCHAR 照合を使用するデータベースでは、カラムのインデックス付けのパフォーマンスが影響を受けることはありません。初期化ユーティリティ (dbinit)の -zn オプションを使用して、NCHAR データベースを指定します。
異なる CHAR 照合と NCHAR 照合を使用する 1 つのデータベースで、CHAR データベース照合を使用するテキスト・インデックスと、NCHAR データベース照合を使用するテキスト・インデックスを使用して、同じデータセットにインデックス付けを行うと、異なる用語や全文検索結果が生成される可能性があります。
CJK 文字では、大文字小文字やアクセントの有無の区別は直接的にはサポートされませんが、異なる CJK 文字間の比較にこれらの概念が使用されます。大文字小文字やアクセントの有無を区別しないように照合を調整した場合、SQL Anywhere は、各言語の要件に従って、それに相当するような文字の比較を言語内で行います。
たとえば日本語の場合、区別しないように照合を調整すると、ひらがなとカタカナの同じ文字が一致します。
ユニコード照合アルゴリズムおよび異なる文字列の比較と解析方法の詳細については、
http://www.unicode.org/unicode/reports/tr10/ を参照してください。
サンプルデータベースはこちらからダウンロードしてください。.
SAPの SAP SQLAnywhere製品ページはこちら