メニュー
Amazon CloudSearch
開発者ガイド (API Version 2013-01-01)

Amazon CloudSearch でのテキスト処理

インデックスの作成中、Amazon CloudSearch はフィールドに設定された分析スキームに従って text フィールドと text-array フィールドを処理し、インデックスに追加する用語を決定します。分析オプションが適用される前に、テキストがトークン分割および正規化されます。

トークン分割時、フィールド内のテキストのストリームは、Unicode Text Segmentation アルゴリズムで定義されたワードブレークを使用して、検出可能な境界上の別個のトークンに分割されます。詳細については、「Unicode Text Segmentation」を参照してください。

ワードブレークルールに従って、スペースやタブなどの空白文字により区切られた文字列は別個のトークンとして扱われます。多くの場合、句読点は削除され、空白文字として扱われます。たとえば、ハイフン(-)および記号(@)では文字列が分割されます。ただし、後ろに空白文字がつかないピリオドはトークンの一部と見なされます。

大文字と小文字が連続している場合は分割されない点に注意してください。CamelCase 文字列はトークン分割されません。

正規化時、大文字は小文字に変換されます。アクセントは通常、フィールドの分析スキームで設定されたステミングオプションに従って扱われます。(英語のデフォルト分析スキームでは、アクセントが削除されます)。

トークン分割と正規化が完了したら、分析スキームで指定されたステミングオプション、ストップワード、シノニムが適用されます。

検索リクエストを送信すると、インデックスに存在する用語に対して一致できるように、検索対象のテキストには同じテキスト処理が行われます。ただし、プレフィックス検索を実行する場合、検索用語でテキスト分析は実行されません。これは、語幹解釈が有効な場合、末尾が s のプレフィックスを検索すると、用語の単数形には通常一致しないことを意味します。これは、複数形だけでなく末尾が s のあらゆる用語に適用される可能性があります。たとえば、サンプル映画データの actor フィールドで Anders を検索した場合、一致する映画が 3 つあるとします。Ander* を検索した場合、それらの映画に加えて他のいくつかの映画が一致します。一方、Anders* を検索した場合、一致はありません。これは、用語が ander としてインデックスに格納されており、anders はインデックスにないためです。

語幹解釈のために、ワイルドカード検索を行っても関連する一致がすべて返されない場合、AlgorithmicStemming オプションを none に設定することでテキストフィールドの語幹解釈を抑制できます。または、データを text フィールドではなく literal フィールドにマッピングできます。

Amazon CloudSearch での言語固有のテキスト処理設定

アラビア語(ar)

アルゴリズム語幹解釈オプション: light

デフォルトの分析スキーム: _ar_default_

  • アルゴリズム語幹解釈: light

  • デフォルトのストップワードディクショナリ

アルメニア語(hy)

アルゴリズム語幹解釈オプション: full

デフォルトの分析スキーム: _hy_default_

  • アルゴリズム語幹解釈: full

  • デフォルトのストップワードディクショナリ

バスク語(eu)

アルゴリズム語幹解釈オプション: full

デフォルトの分析スキーム: _eu_default_

  • アルゴリズム語幹解釈オプション: full

  • デフォルトのストップワードディクショナリ

ブルガリア語(bg)

アルゴリズム語幹解釈オプション: light

デフォルトの分析スキーム: _bg_default_

  • アルゴリズム語幹解釈: light

  • デフォルトのストップワードディクショナリ

カタロニア語(ca)

アルゴリズム語幹解釈オプション: full

Elision フィルタ有効

デフォルトの分析スキーム: _ca_default_

  • アルゴリズム語幹解釈: full

  • デフォルトのストップワードディクショナリ

簡体字中国語(zh-Hans)

サポートされていないアルゴリズム語幹解釈

サポートされていない語幹解釈ディクショナリ

デフォルトの分析スキーム: _zh-Hans_default_

繁体字中国語(zh-Hant)

サポートされていないアルゴリズム語幹解釈

サポートされていない語幹解釈ディクショナリ

デフォルトの分析スキーム: _zh-Hant_default_

チェコ語(cs)

アルゴリズム語幹解釈オプション: light

デフォルトの分析スキーム: _cs_default_

  • アルゴリズム語幹解釈: light

  • デフォルトのストップワードディクショナリ

デンマーク語(da)

アルゴリズム語幹解釈オプション: full

デフォルトの分析スキーム: _da_default_

  • アルゴリズム語幹解釈: full

  • デフォルトのストップワードディクショナリ

オランダ語(nl)

アルゴリズム語幹解釈オプション: full

デフォルトの分析スキーム: _nl_default_

  • アルゴリズム語幹解釈: full

  • デフォルトのストップワードディクショナリ

  • デフォルトのステミングディクショナリ

英語(en)

アルゴリズム語幹解釈オプション: minimal|light|full

デフォルトの分析スキーム: _en_default_

  • アルゴリズム語幹解釈: full

  • デフォルトのストップワードディクショナリ

フィンランド語(fi)

アルゴリズム語幹解釈オプション: light|full

デフォルトの分析スキーム: _fi_default_

  • アルゴリズム語幹解釈: light

  • デフォルトのストップワードディクショナリ

フランス語(fr)

アルゴリズム語幹解釈オプション: minimal|light|full

Elision フィルタ有効

デフォルトの分析スキーム: _fr_default_

  • アルゴリズム語幹解釈: minimal

  • デフォルトのストップワードディクショナリ

ガリシア語(gl)

アルゴリズム語幹解釈オプション: minimal|full

デフォルトの分析スキーム: _gl_default_

  • アルゴリズム語幹解釈: minimal

  • デフォルトのストップワードディクショナリ

ドイツ語(de)

アルゴリズム語幹解釈オプション: minimal|light|full

デフォルトの分析スキーム: _de_default_

  • アルゴリズム語幹解釈: light

  • デフォルトのストップワードディクショナリ

ギリシャ語(el)

アルゴリズム語幹解釈オプション: full

デフォルトの分析スキーム: _el_default_

  • アルゴリズム語幹解釈: full

  • デフォルトのストップワードディクショナリ

ヘブライ語(h3)

アルゴリズム語幹解釈オプション: full

デフォルトの分析スキーム: _he_default_

  • アルゴリズム語幹解釈: full

  • デフォルトのストップワードディクショナリ

ヒンディー語(hi)

アルゴリズム語幹解釈オプション: full

デフォルトの分析スキーム: _hi_default_

  • アルゴリズム語幹解釈: full

  • デフォルトのストップワードディクショナリ

ハンガリー語(hu)

アルゴリズム語幹解釈オプション: light|full

デフォルトの分析スキーム: _hu_default_

  • アルゴリズム語幹解釈: light

  • デフォルトのストップワードディクショナリ

インドネシア語(id)

アルゴリズム語幹解釈オプション: light|full

デフォルトの分析スキーム: id_default_

  • アルゴリズム語幹解釈: full

  • デフォルトのストップワードディクショナリ

アイルランド語(ga)

アルゴリズム語幹解釈オプション: full

Elision フィルタ有効

デフォルトの分析スキーム: _ga_default_

  • アルゴリズム語幹解釈オプション: full

  • デフォルトのストップワードディクショナリ

イタリア語(it)

アルゴリズム語幹解釈オプション: light|full

Elision フィルタ有効

デフォルトの分析スキーム: _it_default_

  • アルゴリズム語幹解釈: light

  • デフォルトのストップワードディクショナリ

日本語(ja)

アルゴリズム語幹解釈オプション: full

アルゴリズム複混合が有効

オプションのトークン分割ディクショナリ

デフォルトの分析スキーム: _ja_default_

  • アルゴリズム語幹解釈: full

  • デフォルトのストップワードディクショナリ

韓国語(ko)

サポートされていないアルゴリズム語幹解釈

アルゴリズム複混合が有効

デフォルトの分析スキーム: _ko_default_

  • デフォルトのストップワードディクショナリ

ラトビア語(lv)

アルゴリズム語幹解釈: light

デフォルトの分析スキーム: _lv_default_

  • アルゴリズム語幹解釈: light

  • デフォルトのストップワードディクショナリ

複数(mul)

アルゴリズムステミング: 未サポート

デフォルトの分析スキーム: _mul_default_

  • デフォルトのストップワードディクショナリ

ノルウェー語(no)

アルゴリズム語幹解釈オプション: minimal|light|full

デフォルトの分析スキーム: _no_default_

  • アルゴリズム語幹解釈: light

  • デフォルトのストップワードディクショナリ

ペルシャ語(fa)

サポートされていないアルゴリズム語幹解釈

デフォルトの分析スキーム: _fa_default_

  • デフォルトのストップワードディクショナリ

ポルトガル語(pt)

アルゴリズム語幹解釈オプション: minimal|light|full

デフォルトの分析スキーム: _pt_default_

  • アルゴリズム語幹解釈: minimal

  • デフォルトのストップワードディクショナリ

ルーマニア語(ro)

アルゴリズム語幹解釈オプション: full

デフォルトの分析スキーム: _ro_default_

  • アルゴリズム語幹解釈: full

  • デフォルトのストップワードディクショナリ

ロシア語(ru)

アルゴリズム語幹解釈オプション: light|full

デフォルトの分析スキーム: _ru_default_

  • アルゴリズム語幹解釈: light

  • デフォルトのストップワードディクショナリ

スペイン語(es)

アルゴリズム語幹解釈オプション: light|full

デフォルトの分析スキーム: _es_default_

  • アルゴリズム語幹解釈: light

  • デフォルトのストップワードディクショナリ

スウェーデン語(sv)

アルゴリズム語幹解釈オプション: light|full

デフォルトの分析スキーム: _sv_default_

  • アルゴリズム語幹解釈: light

  • デフォルトのストップワードディクショナリ

タイ語(th)

サポートされていないアルゴリズム語幹解釈

サポートされていない語幹解釈ディクショナリ

デフォルトの分析スキーム: _th_default_

  • デフォルトのストップワードディクショナリ

トルコ語(tr)

アルゴリズム語幹解釈: full

デフォルトの分析スキーム: _tr_default_

  • アルゴリズム語幹解釈: full

  • デフォルトのストップワードディクショナリ

このページの内容: