準備實體識別器訓練資料

若要訓練成功的自訂實體辨識模型，請務必提供模型訓練師高品質的資料做為輸入。如果沒有良好的資料，模型將無法了解如何正確識別實體。

您可以選擇兩種向 Amazon Comprehend 提供資料的其中一種方式，以訓練自訂實體辨識模型：

實體清單 – 列出特定實體，以便 Amazon Comprehend 可以訓練來識別您的自訂實體。注意：實體清單只能用於純文字文件。
註釋 – 在多個文件中提供實體的位置，以便 Amazon Comprehend 可以同時針對實體及其內容進行訓練。若要建立模型來分析影像檔案、PDFs或 Word 文件，您必須使用 PDF 註釋來訓練辨識器。

在這兩種情況下，Amazon Comprehend 都會了解文件的類型和實體發生的背景，並建置可進行一般化的辨識器，以便在分析文件時偵測新的實體。

當您建立自訂模型（或訓練新版本）時，您可以提供測試資料集。如果您不提供測試資料，Amazon Comprehend 會保留 10% 的輸入文件來測試模型。Amazon Comprehend 會使用剩餘的文件來訓練模型。

如果您為註釋訓練集提供測試資料集，則測試資料必須至少包含一個註釋，用於建立請求中指定的每個實體類型。

何時使用註釋與實體清單

建立註釋比建立實體清單需要更多工作，但產生的模型可能更準確。使用實體清單更快速且較不耗用工作，但結果較不精細且不準確。這是因為註釋為 Amazon Comprehend 在訓練模型時提供更多內容。如果沒有該內容，Amazon Comprehend 在嘗試識別實體時會有較多的誤報。

在某些情況下，為了避免使用註釋的較高費用和工作負載，會更合理地處理業務。例如，John Johnson 的名稱對您的搜尋很重要，但它是否與確切的個人無關。或者，使用實體清單時的指標足夠好，可為您提供所需的辨識器結果。在這種情況下，使用實體清單可以更有效選擇。

建議在下列情況下使用註釋模式：

如果您打算執行映像檔案、PDFs或 Word 文件的推論。在此案例中，您會使用註釋的 PDF 檔案訓練模型，並使用模型來執行映像檔案、PDFs和 Word 文件的推論任務。
實體的意義可能含糊不清且內容相關。例如，Amazon 一詞可以參考巴西的河流，或線上零售商 Amazon.com。當您建置自訂實體識別器來識別 Amazon 等商業實體時，您應該使用註釋而非實體清單，因為此方法更能夠使用內容來尋找實體。
當您願意設定程序以取得註釋時，可能需要一些努力。

在下列情況中，我們建議您使用實體清單：

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

自訂實體辨識

實體清單