準備實體辨識器訓練資料 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

準備實體辨識器訓練資料

若要訓練成功的自訂實體辨識模型,請務必提供高品質資料作為輸入的模型訓練員。如果沒有良好的數據,模型將無法學習如何正確識別實體。

您可以選擇以下兩種方式之一,將資料提供給 Amazon Comprehend,以訓練自訂實體辨識模型:

  • 實體清單 — 列出特定實體,讓 Amazon Comprehend 能夠訓練識別您的自訂實體。注意:實體清單只能用於純文字文件。

  • 註釋 — 在多個文件中提供實體的位置,以便 Amazon Comprehend 可以在實體及其內容上進行訓練。要創建用於分析圖像文件,PDF 或 Word 文檔的模型,您必須使用 PDF 註釋訓練識別器。

在這兩種情況下,Amazon Comprehend 都會學習文件的種類和實體出現的環境,並建立辨識器,以便在您分析文件時一般偵測新實體。

當您建立自訂模型 (或訓練新版本) 時,您可以提供測試資料集。如果您未提供測試資料,Amazon Comprehend 會保留 10% 的輸入文件來測試模型。Amazon Comprehend 訓練與其餘文件的模型。

如果您為註釋訓練集提供測試資料集,測試資料必須至少包含建立要求中所指定之每個實體類型的一個註解。

何時使用註釋與實體清單

建立註釋比建立實體清單需要更多的工作,但產生的模型可能會更精確。使用實體清單會更快速且工作耗用較少,但結果不太精確且不太準確。這是因為註釋為 Amazon Comprehend 提供了更多的上下文,以便在訓練模型時使用。如果沒有這種情況,Amazon Comprehend 會在嘗試識別實體時產生較多的誤報。

在某些情況下,它使更具商業意義,以避免使用註釋的更高費用和工作負載。例如,John Johnson 這個名字對您的搜尋很重要,但這個名稱是否確切的個人並不相關。或者,使用實體列表時的指標足以為您提供所需的識別器結果。在這種情況下,使用實體列表可以是更有效的選擇。

我們建議在下列情況下使用註釋模式:

  • 如果您打算對影像檔案、PDF 或 Word 文件執行推論。在這個案例中,您會使用帶註解的 PDF 檔案來訓練模型,並使用模型來執行影像檔、PDF 和 Word 文件的推論工作。

  • 當實體的含義可能是模棱兩可的和上下文相關的。例如,術語 Amazon 可以指巴西的河流,或在線零售商 Amazon.com。當您建立自訂實體辨識器來識別商業實體 (例如 Amazon) 時,您應該使用註解而不是實體清單,因為此方法能夠更好地使用內容來尋找實體。

  • 當您舒適地設置一個獲取註釋的過程時,這可能需要一些努力。

我們建議在下列情況下使用實體清單:

  • 當你已經有一個實體列表,或者當它是相對容易的組成一個完整的實體列表。如果您使用實體清單,清單應該是完整的,或至少涵蓋了您提供訓練之文件中可能出現的大多數有效實體。

  • 對於首次使用的用戶,通常建議使用實體列表,因為這需要比構建註釋更小的努力。但是,請務必注意,訓練過的模型可能不像您使用註釋一樣精確。