本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
若要將自訂同義詞新增至索引,請在saurus 檔案中指定它們。您可以使用同義詞在 Amazon Kendra 中包含業務特定或專業術語。一般英文同義詞,例如 leader, head
,已內建於 Amazon Kendra ,且不應包含在 saurus 檔案中,包括使用連字號的一般同義詞。 Amazon Kendra 支援所有回應類型的同義詞,包括DOCUMENT
回應類型和 QUESTION_ANSWER
或 ANSWER
回應類型。 Amazon Kendra 目前不支援新增標記為停止詞的同義詞。這是包含在未來的版本中。
Amazon Kendra 會建立同義詞之間的關聯。例如,使用同義詞對 Dynamo, Amazon DynamoDB
,將 Dynamo 與 Amazon Kendra 相互關聯 Amazon DynamoDB。查詢「什麼是 dynamo?」 然後傳回「什麼是 Amazon DynamoDB?」等文件。使用同義詞, Amazon Kendra 可以更輕鬆地取得相關性。
Thesaurus 檔案是存放在 Amazon S3 儲存貯體中的文字檔案。請參閱 將儲存庫新增至索引。
Thesaurus 檔案使用 Solr 同義詞格式
同義詞在下列案例中很有用:
-
非傳統英文同義詞的專門術語,例如
NLP, Natural Language Processing
。 -
具有複雜語意關聯的適當名詞。這些是一般大眾不太可能理解的名詞,例如,在機器學習 中
cost, loss, model performance
。 -
不同形式的產品名稱,例如
Elastic Compute Cloud, EC2
。 -
網域特定或業務特定詞彙,例如產品名稱。例如:
Route53, DNS
。
請勿在下列情況下使用同義詞:
-
一般英文同義詞,例如
leader, head
。這些同義詞並非特定於網域,而且在這些案例中使用同義詞可能會有非預期的效果。 -
排版錯誤,例如
teh => the
。 -
形態變體,例如名詞的複數和擁有權、形容詞的比較和超級形式,以及過去張量、過去部分和漸進形式的動詞。比較和超級形容詞的一個範例是
good, better, best
。 -
Unigram (單字) 停止單字,例如
WHO
。單數停止單字不允許在 saurus 中,且無法進行搜尋。例如,WHO => World Health Organization
會遭到拒絕。不過,您可以使用W.H.O.
做為同義詞,也可以使用停止單字做為多字同義詞的一部分。例如,of
不允許 ,但United States of America
接受 。
自訂同義詞可讓您透過擴展查詢以涵蓋業務特定同義詞,輕鬆提升對業務特定術語的 Amazon Kendra了解。雖然同義詞可以提高搜尋準確性,但請務必了解同義詞如何影響延遲,以便您為此進行最佳化。
同義詞的一般規則是:查詢中與同義詞相符和擴展的詞彙越多,對延遲的潛在影響就越大。影響延遲的其他因素包括編製索引的文件平均大小、索引大小、搜尋結果的任何篩選,以及 Amazon Kendra 索引的整體負載。不符合任何同義詞的查詢不會受到影響。
同義詞如何影響延遲的一般準則:
使用案例 | 延遲增加* |
---|---|
一般自然語言或關鍵字查詢,每個 3 到 5 個單字 | 低於 15% |
1 個查詢字詞擴展至 3 個同義詞 | |
約 500,000 個文件的索引 (每個文件平均 10.48 KB 的擷取文字) 或 30,000 個常見問答集/問題對 |
*效能會因索引上同義詞和組態的特定使用而有所不同。最好測試搜尋效能,以針對特定使用案例取得更準確的基準。
如果您的儲存庫很大、具有長期擴展率,而且延遲增加不在可接受的界限內,您可以嘗試下列其中一項或兩項:
-
修剪您的儲存庫以減少擴展比率 (每個字詞的同義詞數)。
-
修剪術語的整體涵蓋範圍 (您儲存庫中的行數)。
或者,您可以增加佈建容量 (虛擬儲存單元) 來抵銷延遲增加。