將自訂同義詞新增至索引 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

將自訂同義詞新增至索引

若要將自訂同義詞新增至索引,請在saurus 檔案中指定它們。您可以使用同義詞在 Amazon Kendra 中包含業務特定或專業術語。一般英文同義詞,例如 leader, head,是內建在 中 Amazon Kendra ,不應包含在 saurus 檔案中,包括使用連字號的一般同義詞。 Amazon Kendra 支援所有回應類型的同義詞,包括 DOCUMENT回應類型和 QUESTION_ANSWERANSWER回應類型。 Amazon Kendra 目前不支援新增標記為停止詞的同義詞。這是包含在未來的版本中。

Amazon Kendra 會建立同義詞之間的關聯性。例如,使用同義詞對 Dynamo, Amazon DynamoDB,將 Dynamo 與 Amazon Kendra 相互關聯 Amazon DynamoDB。查詢「什麼是 dynamo?」 然後傳回像是「什麼是 Amazon DynamoDB?」的文件。使用同義詞, Amazon Kendra 可以更輕鬆地取得相互關聯性。

儲存貯體檔案是存放在 Amazon S3 儲存貯體中的文字檔案。請參閱 將儲存庫新增至索引

saurus 檔案使用 Solr 同義詞格式。對於每個索引的 sauri 數量 Amazon Kendra 有限制。請參閱配額

同義詞在下列案例中很有用:

  • 非傳統英文同義詞的特殊術語,例如 NLP, Natural Language Processing

  • 具有複雜語意關聯的適當名詞。這些是一般大眾不太可能理解的名詞,例如,在機器學習 中cost, loss, model performance

  • 不同形式的產品名稱,例如 Elastic Compute Cloud, EC2

  • 網域特定或業務特定術語,例如產品名稱。例如 Route53, DNS

請勿在下列案例中使用同義詞:

  • 一般英文同義詞,例如 leader, head。這些同義詞並非特定於網域,在這些案例中使用同義詞可能會產生非預期的效果。

  • 排版錯誤,例如 teh => the

  • 形態變體,例如名詞的複數和擁有權、形容詞的比較和超級形式,以及過去張量、過去部分和漸進形式的動詞。比較和超級形容詞的一個範例是 good, better, best

  • Unigram (單字) 停止單字,例如 WHO。Unigram 停止單字不允許在saurus 中,且會排除在搜尋之外。例如, WHO => World Health Organization會遭到拒絕。不過,您可以使用 W.H.O.做為同義詞,也可以使用停止單字做為多字同義詞的一部分。例如,of不允許 ,但United States of America接受 。

自訂同義詞可透過擴展查詢以涵蓋您的業務特定同義詞,輕鬆提升對業務特定術語的 Amazon Kendra了解。雖然同義詞可以提高搜尋準確性,但請務必了解同義詞如何影響延遲,以便進行最佳化。

同義詞的一般規則是:查詢中與同義詞相符和擴展的詞彙越多,對延遲的潛在影響就越大。影響延遲的其他因素包括編製索引的文件平均大小、索引大小、搜尋結果的任何篩選,以及 Amazon Kendra 索引的整體負載。不符合任何同義詞的查詢不會受到影響。

同義詞如何影響延遲的一般準則:

使用案例 延遲增加*
一般自然語言或關鍵字查詢,每個 3 到 5 個單字 低於 15%
1 個查詢詞彙擴展至 3 個同義詞
約 500,000 個文件的索引 (每個文件平均 10.48 KB 的擷取文字) 或 30,000 個常見問答集/問題對

*效能會根據您在索引上使用的特定同義詞和組態而有所不同。最好測試搜尋效能,以針對特定使用案例取得更準確的基準。

如果您的儲存庫很大、具有長期擴展率,而且您的延遲增加不在可接受的界限內,您可以嘗試下列其中一項或兩項:

  • 修剪儲存庫以降低擴展比率 (每個詞彙的同義詞數)。

  • 裁剪術語的整體涵蓋範圍 (Saurus 中的行數)。

或者,您可以增加佈建容量 (虛擬儲存單位),以抵銷延遲增加。