翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
シソーラスファイルの作成
Amazon Kendra シソーラスファイルは、Solr シノニムリスト形式のシノニムのリストを含む UTF-8-encodedされたファイルです。シソーラスファイルは 5 MB 未満である必要があります。
シノニムのマッピングを指定するには、2 つの方法があります。
-
双方向シノニムは、用語をカンマで区切ったリストとして指定します。ユーザーがいずれかの用語を検索する場合、リスト内のすべての用語がドキュメント検索に使用されます。これには、クエリされた元の用語も含まれます。
-
単方向シノニムは、用語をシノニムにマッピングするために、「=>」で区切られた用語として指定されます。記号「=>」の左側にある用語をユーザーが検索すると、その用語は右側の用語にマップされ、シノニムを使用しているドキュメントを検索します。その逆はマッピングされないため、単方向になります。
シノニム自体では大文字と小文字が区別されますが、マップ先の用語では大文字と小文字は区別されません。例えば ML => Machine Learning
の場合、ユーザーが「ML」や「ml」を検索したり、大文字小文字のその他の組み合わせを使用したりすると、「Machine Learning」にマッピングされます。逆に、Machine Learning => ML
をマッピングすると、「Machine Learning」や「machine learning」、およびその他に組み合わせが、「ML」にマッピングされます。
シノニムは特殊文字の完全一致を検索しません。たとえば、dead-letter-queue」を検索すると、 は「dead letter queue」に一致するドキュメントを返す Amazon Kendra ことができます (ハイフンなし)。ドキュメントにdead-letter-queue」などのハイフンが含まれている場合、 は検索中にドキュメント Amazon Kendra を処理してハイフンを削除します。に組み込まれており、シソーラスファイルに含める Amazon Kendra べきではない一般的な英語シノニム用語の場合、 は用語のハイフンバージョンと非ハイフンバージョンの両方を検索 Amazon Kendra できます。例えば、「サードパーティー」と「サードパーティー」を検索すると、 はそれらの用語のいずれかのバージョンに一致するドキュメント Amazon Kendra を返します。
ストップワードまたは一般的に使用される単語を含むシノニムの場合、 はストップワードを含む語句に一致するドキュメント Amazon Kendra を返します。たとえば、シノニムルールを作成して、「オンボーディング」と「オンボーディング」をマッピングできます。シノニムにストップワードを単独で使用することはできません。例えば、「on」を検索すると、 Amazon Kendra 「on」を含むすべてのドキュメントを返すことはできません。
一部のシノニムルールは無視されます。例えば、 a => b
はルールですが、 a => a
は無視され、ルールとしてカウントされません。
用語数は、シソーラスファイル内の一意の用語の数です。以下のサンプルファイルには、AWS CodeStar
、、ML
、ASG
、 Machine Learning
autoscaling group
などの用語が含まれています。
シソーラスあたりのシノニムルールの最大数と用語あたりのシノニムの最大数があります。詳細については、「のクォータ Amazon Kendra」を参照してください。
次の例は、シノニムルールを含むシソーラスファイルを示しています。各行には 1 つのシノニムルールが含まれています。空白行とコメントは無視されます。
# Lines starting with pound are comments and blank lines are ignored.
# Synonym relationships can be defined as unidirectional or bidirectional relationships.
# Unidirection relationships are represented by any term sequence
# on the left hand side (LHS) of "=>" followed by synonyms on the right hand side (RHS)
CodeStar => AWS CodeStar
# This will map CodeStar to AWS CodeStar, but not vice-versa
# To map terms vice versa
ML => Machine Learning
Machine Learning => ML
# Multiple synonym relationships may be defined in one line as well by comma seperation.
autoscaling group, ASG => Auto Scaling group, autoscaling
# The above is equivalent to:
# autoscaling group => Auto Scaling group, autoscaling
# ASG => Auto Scaling group, autoscaling
# Bi-directional synonyms are comma separated terms with no "=>"
DNS, Route53, Route 53
# DNS, Route53, and Route 53 map to one another and are interchangeable at match time
# The above is equivalent to:
# DNS => Route53, Route 53
# Route53 => DNS, Route 53
# Route 53 => DNS, Route53
# Overlapping LHS terms will be merged
Beta => Alpha
Beta => Gamma
Beta, Delta
# is equivalent to:
# Beta => Alpha, Gamma, Delta
# Delta => Beta
# Each line contains a single synonym rule.
# Synonym rule count is the total number of lines defining synonym relationships
# Term count is the total number of unique terms for all rules.
# Comments and blanks lines do not count.