註釋 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

註釋

註釋會將您的自訂實體類型與訓練文件中的位置相關聯,來標示前後關聯中的實體。

透過與文件一起提交註釋,您可以提高模型的準確性。有了 Annotations,您不只是提供您要尋找的實體的位置,而且還為您要尋找的自訂實體提供更準確的內容。

例如,如果您正在搜尋名稱 John Johnson,而實體類型為「判斷」,提供您的註解可能會協助模型瞭解您要尋找的人是法官。如果它能夠使用上下文,那麼 Amazon Comprehend 將找不到名為約翰·約翰遜的人是律師或證人。Amazon Comprehend 將在不提供註釋的情況下建立自己的註釋版本,但在僅包括評審方面並不會有效。提供您自己的註釋可能有助於獲得更好的結果,並在提取自定義實體時生成能夠更好地利用上下文的模型。

註釋的最小數目

訓練模型所需的最小輸入文件和註釋數量取決於註釋的類型。

注釋

若要建立分析影像檔案、PDF 或 Word 文件的模型,請使用 PDF 註解訓練辨識器。對於 PDF 註釋,每個實體至少提供 250 個輸入文件和至少 100 個註釋。

如果您提供測試資料集,測試資料必須至少包含建立要求中指定的每個實體類型的一個註解。

純文字註解

若要建立用於分析文字文件的模型,您可以使用純文字註解來訓練辨識器。

對於純文字註釋,請至少提供三個帶註解的輸入文件,每個實體至少提供 25 個註釋。如果您提供的註解總數少於 50 個,Amazon Comprehend 會保留 10% 以上的輸入文件來測試模型 (除非您在訓練請求中提供了測試資料集)。不要忘記,最小文檔語料庫大小為 5 KB。

如果您的輸入只包含幾個訓練文件,您可能會遇到錯誤,即訓練輸入資料包含的文件太少,提及其中一個實體。使用提及實體的其他文件再次提交工作。

如果您提供測試資料集,測試資料必須至少包含建立要求中指定的每個實體類型的一個註解。

如需如何使用小型資料集對模型進行基準測試的範例,請參閱 Amazon Comprehend 宣布降低AWS部落格網站上自訂實體辨識的註釋限制

註解最佳作法

在使用註釋時,有許多事情需要考慮以獲得最佳結果,包括:

  • 小心註釋您的數據,並驗證您是否對實體的每次提及進行註釋。不精確的註釋可能會導致結果不佳。

  • 輸入數據不應包含重複項,例如要註釋的 PDF 的副本。存在重複樣本可能會導致測試集污染,並可能對訓練過程、模型指標和模型行為產生負面影響。

  • 確保您的所有文檔都被註釋,並且沒有註釋的文檔是由於缺乏合法實體,而不是由於疏忽。例如,如果您有一份文件上寫著「J Doe 擔任工程師已有 14 年」,則您還應該為「J Doe」和「Doe」提供註釋。如果不這樣做會使模型混淆,並可能導致模型無法將「J Doe」識別為「工程師」。這應該是相同的文檔和跨文檔一致的。

  • 一般來說,更多的註釋會導致更好的結果。

  • 您可以使用最少數量的文件和註釋來訓練模型,但是新增資料通常可以改善模型。我們建議將已註解資料的數量增加 10%,以提高模型的精確度。您可以在測試資料集上執行推論,該資料集保持不變,而且可由不同的模型版本進行測試。然後,您可以比較連續模型版本的量度。

  • 盡可能提供與實際使用案例相似的文件。應避免具有重複模式的合成數據。輸入的數據應盡可能多樣化,以避免過度擬合,並幫助底層模型更好地概括在真實的例子。

  • 重要的是,文檔在字數方面應該是多樣化的。例如,如果訓練資料中的所有文件都很短,則產生的模型可能難以預測較長文件中的實體。

  • 嘗試為訓練提供與實際偵測自訂實體時預期使用的相同資料分佈 (推論時間)。例如,在推論時,如果您希望傳送給我們沒有實體的文件,這也應該是訓練文件集的一部分。

如需其他建議,請參閱改善自訂實體辨識器效能