選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

將自訂同義詞新增至索引

焦點模式
將自訂同義詞新增至索引 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

若要將自訂同義詞新增至索引,請在saurus 檔案中指定它們。您可以使用同義詞在 Amazon Kendra 中包含業務特定或專業術語。一般英文同義詞,例如 leader, head,已內建於 Amazon Kendra ,且不應包含在 saurus 檔案中,包括使用連字號的一般同義詞。 Amazon Kendra 支援所有回應類型的同義詞,包括DOCUMENT回應類型和 QUESTION_ANSWERANSWER回應類型。 Amazon Kendra 目前不支援新增標記為停止詞的同義詞。這是包含在未來的版本中。

Amazon Kendra 會建立同義詞之間的關聯。例如,使用同義詞對 Dynamo, Amazon DynamoDB,將 Dynamo 與 Amazon Kendra 相互關聯 Amazon DynamoDB。查詢「什麼是 dynamo?」 然後傳回「什麼是 Amazon DynamoDB?」等文件。使用同義詞, Amazon Kendra 可以更輕鬆地取得相關性。

Thesaurus 檔案是存放在 Amazon S3 儲存貯體中的文字檔案。請參閱 將儲存庫新增至索引

Thesaurus 檔案使用 Solr 同義詞格式。每個索引的 sauri 數目 Amazon Kendra 有限制。請參閱配額

同義詞在下列案例中很有用:

  • 非傳統英文同義詞的專門術語,例如 NLP, Natural Language Processing

  • 具有複雜語意關聯的適當名詞。這些是一般大眾不太可能理解的名詞,例如,在機器學習 中cost, loss, model performance

  • 不同形式的產品名稱,例如 Elastic Compute Cloud, EC2

  • 網域特定或業務特定詞彙,例如產品名稱。例如:Route53, DNS

請勿在下列情況下使用同義詞:

  • 一般英文同義詞,例如 leader, head。這些同義詞並非特定於網域,而且在這些案例中使用同義詞可能會有非預期的效果。

  • 排版錯誤,例如 teh => the

  • 形態變體,例如名詞的複數和擁有權、形容詞的比較和超級形式,以及過去張量、過去部分和漸進形式的動詞。比較和超級形容詞的一個範例是 good, better, best

  • Unigram (單字) 停止單字,例如 WHO。單數停止單字不允許在 saurus 中,且無法進行搜尋。例如, WHO => World Health Organization會遭到拒絕。不過,您可以使用 W.H.O.做為同義詞,也可以使用停止單字做為多字同義詞的一部分。例如,of不允許 ,但United States of America接受 。

自訂同義詞可讓您透過擴展查詢以涵蓋業務特定同義詞,輕鬆提升對業務特定術語的 Amazon Kendra了解。雖然同義詞可以提高搜尋準確性,但請務必了解同義詞如何影響延遲,以便您為此進行最佳化。

同義詞的一般規則是:查詢中與同義詞相符和擴展的詞彙越多,對延遲的潛在影響就越大。影響延遲的其他因素包括編製索引的文件平均大小、索引大小、搜尋結果的任何篩選,以及 Amazon Kendra 索引的整體負載。不符合任何同義詞的查詢不會受到影響。

同義詞如何影響延遲的一般準則:

使用案例 延遲增加*
一般自然語言或關鍵字查詢,每個 3 到 5 個單字 低於 15%
1 個查詢字詞擴展至 3 個同義詞
約 500,000 個文件的索引 (每個文件平均 10.48 KB 的擷取文字) 或 30,000 個常見問答集/問題對

*效能會因索引上同義詞和組態的特定使用而有所不同。最好測試搜尋效能,以針對特定使用案例取得更準確的基準。

如果您的儲存庫很大、具有長期擴展率,而且延遲增加不在可接受的界限內,您可以嘗試下列其中一項或兩項:

  • 修剪您的儲存庫以減少擴展比率 (每個字詞的同義詞數)。

  • 修剪術語的整體涵蓋範圍 (您儲存庫中的行數)。

或者,您可以增加佈建容量 (虛擬儲存單元) 來抵銷延遲增加。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。