註釋

透過將自訂實體類型與訓練文件中發生的位置建立關聯，在內容中標記實體的註釋。

透過提交註釋與您的文件，您可以提高模型的準確性。使用註釋，您不僅要提供您要尋找的實體位置，還要為您要尋找的自訂實體提供更準確的內容。

例如，如果您使用實體類型 JUDGE 來搜尋名稱 John Johnson，提供註釋可能有助於模型了解您要尋找的人員是判斷。如果能夠使用內容，Amazon Comprehend 就找不到名為 John Johnson 且為律師或證人的人員。如果沒有提供註釋，Amazon Comprehend 會建立自己的註釋版本，但在僅包含判斷時，效果不如以往。提供您自己的註釋可能有助於實現更好的結果，並在擷取自訂實體時產生能夠更好地利用內容的模型。

主題

註釋數量下限

訓練模型所需的輸入文件和註釋數量下限取決於註釋的類型。

PDF 註釋

若要建立模型來分析影像檔案、PDFs或 Word 文件，請使用 PDF 註釋來訓練您的辨識器。對於 PDF 註釋，請為每個實體提供至少 250 個輸入文件和至少 100 個註釋。

如果您提供測試資料集，測試資料必須至少包含一個註釋，以供建立請求中指定的每個實體類型使用。

純文字註釋

若要建立分析文字文件的模型，您可以使用純文字註釋來訓練辨識器。

對於純文字註釋，請為每個實體提供至少三個註釋的輸入文件和至少 25 個註釋。如果您提供少於 50 個註釋，Amazon Comprehend 會保留超過 10% 的輸入文件來測試模型（除非您在訓練請求中提供測試資料集）。別忘了，文件 corpus 大小下限為 5 KB。

如果您的輸入只包含幾個訓練文件，您可能會遇到訓練輸入資料包含提及其中一個實體的文件太少的錯誤。再次提交任務，並附上提及實體的其他文件。

如果您提供測試資料集，測試資料必須至少包含一個註釋，以供建立請求中指定的每個實體類型使用。

如需如何使用小型資料集對模型進行基準測試的範例，請參閱 AWS 部落格網站上的 Amazon Comprehend 發佈自訂實體辨識的較低註釋限制。

註釋最佳實務

使用註釋時，需要考慮一些事項，才能獲得最佳結果，包括：

謹慎註釋您的資料，並確認您已註釋每個提及實體的。不精確的註釋可能會導致結果不佳。
輸入資料不應包含重複項目，例如您要註釋的 PDF 複本。存在重複的樣本可能會導致測試集污染，並可能對訓練程序、模型指標和模型行為產生負面影響。
請確定您的所有文件都已加上註釋，而且沒有註釋的文件是由於缺乏合法實體，而不是由於疏忽。例如，如果您的文件顯示「J Doe 已擔任工程師 14 年」，您也應該提供「J Doe」和「John Doe」的註釋。否則，模型會混淆，並可能導致模型無法將 "J Doe" 識別為 ENGINEER。這在相同文件和跨文件之間應保持一致。
一般而言，更多註釋可產生更好的結果。
您可以使用最少數量的文件和註釋來訓練模型，但新增資料通常會改善模型。我們建議將註釋資料量增加 10%，以增加模型的準確性。您可以在保持不變的測試資料集上執行推論，並可由不同的模型版本進行測試。然後，您可以比較連續模型版本的指標。
盡可能提供類似實際使用案例的文件。應避免使用重複模式合成資料。輸入資料應盡可能多樣化，以避免過度擬合，並協助基礎模型在實際範例上更全面化。
文件在字數方面應該是多樣化的，這一點很重要。例如，如果訓練資料中的所有文件都很短，則產生的模型可能無法在較長的文件中預測實體。
嘗試並提供與實際偵測自訂實體時預期使用的相同訓練資料分佈（推論時間）。例如，在推論時間，如果您預期將沒有實體的文件傳送給我們，這也應該是訓練文件集的一部分。

如需其他建議，請參閱改善自訂實體辨識器效能。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

實體清單

純文字註釋