將自訂同義字新增至索引 - Amazon Kendra

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

將自訂同義字新增至索引

若要將自訂同義字新增至索引,請在同義字辭典檔案中指定它們。您可以在 Amazon Kendra 使用同義字時包含特定業務或專用術語。一般英文同義詞 (例如leader, head) 已內建於同義字 Amazon Kendra 辭典檔案中,包括使用連字號的一般同義字。 Amazon Kendra 支持所有響應類型的同義詞,包括DOCUMENT響應類型和/QUESTION_ANSWERANSWER響應類型。 Amazon Kendra 目前不支援新增標記為停用字詞的同義字。這將包含在 future 的版本中。

Amazon Kendra 使同義詞之間的相關性。例如,使用同義詞對Dynamo, Amazon DynamoDB,將 Dynamo Amazon Kendra 與相關聯。 Amazon DynamoDB查詢「什麼是發電機?」 然後返回一個文檔,如「什麼是 Amazon DynamoDB?」。使用同義詞, Amazon Kendra 可以更輕鬆地拾取相關性。

索引典檔案是儲存在值區中的文字檔案。 Amazon S3 請參閱將索引典新增至索引

同義字檔案使用 Solr 同義字格式。 Amazon Kendra 對每個索引的同義詞庫數量有限制。請參閱配額

在下列情況下,同義字可能很有用:

  • 不是傳統英語語言同義詞的專業術語,例如NLP, Natural Language Processing.

  • 具有複雜語義關聯的正確名詞。這些名詞是普通大眾不太可能理解的名詞,例如,在機器學習中,. cost, loss, model performance

  • 不同形式的產品名稱,例如,Elastic Compute Cloud, EC2.

  • 特定網域或業務特定詞彙,例如產品名稱。例如 Route53, DNS

請勿在下列情況下使用同義字:

  • 通用英語語言同義詞,例如leader, head. 這些同義字並非網域特有的,在這些案例中使用同義字可能會產生意想不到的影響。

  • 印刷錯誤,例如. teh => the

  • 形態變體,例如名詞的複數和所有物,形容詞的比較和最高級形式以及動詞的過去式,過去分詞和漸進形式。比較和最高級形容詞的一個例子是。good, better, best

  • 統一圖(單個字)停止詞,WHO例如。同義字辭典中不允許使用 Unigram 停用字詞,且會從搜尋中排除。例如,WHO => World Health Organization被拒絕。W.H.O.但是,您可以將其用作同義詞,並且可以使用停用詞作為多字同義詞的一部分。例如,of不允許,但United States of America被接受。

自訂同義詞可擴展查詢以涵蓋特定業務的同義詞,讓您輕鬆地改善 Amazon Kendra對特定業務術語的理解。儘管同義詞可以提高搜索準確性,但了解同義詞如何影響延遲很重要,以便您可以針對此進行優化。

同義字的一般規則是:查詢中符合和擴充同義字的字詞越多,對延遲的潛在影響就越大。影響延遲的其他因素包括索引文件的平均大小、索引的大小、搜尋結果的篩選,以及索 Amazon Kendra 引的整體負載。不符合任何同義字的查詢不會受到影響。

同義詞如何影響延遲的一般準則:

使用案例 延遲增加 *
典型的自然語言或關鍵字查詢,每個 3 到 5 個單詞 少於百分之十五
1 個查詢詞擴展為 3 個同義詞
約 50 萬份文件的索引 (每份文件的擷取文字平均為 10.48 KB) 或 30,000 個常見問題/問題對

* 效能會根據您在索引中對同義字和組態的特定使用情況而有所不同。最好測試搜尋效能,以針對您的特定使用案例取得更準確的基準。

如果您的索引典很大、具有很高的擴充比率,且延遲增加不在可接受的範圍內,您可以嘗試下列其中一種或兩種方法:

  • 修剪索引典以降低擴充比例 (每個字詞的同義字數目)。

  • 修剪字詞的整體涵蓋範圍 (索引典中的行數)。

或者,您可以增加佈建容量 (虛擬儲存單元),以抵消延遲增加的情況。