分類器訓練檔案格式 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

分類器訓練檔案格式

對於純文字模型,您可以將分類器訓練資料提供為CSV檔案或使 SageMaker 用 Ground Truth 建立的增強資訊清單檔案。CSV檔案或增強資訊清單檔案包含每個訓練文件的文字及其相關聯的標籤。

對於原生文件模型,您可以將分類器訓練資料當做CSV檔案提供。CSV檔案包括每個訓練文件的檔案名稱及其關聯的標籤。您可以在訓練任務的 Amazon S3 輸入資料夾中包含訓練文件。

CSV文件

您可以在CSV檔案中以 UTF -8 編碼的文字形式提供標籤訓練資料。請勿包含標題列。在檔案中新增標題列可能會導致執行階段錯誤。

對於CSV文件中的每一行,第一列包含一個或多個類標籤,A 類標籤可以是任何有效的 UTF -8 個字符串。我們建議使用不重疊在意義上的清晰類名。該名稱可以包含空格,並且可以由多個用底線或連字符連接的單詞組成。

請勿在逗號之前或之後留下任何空格字元,以分隔列中的值。

CSV檔案的確切內容取決於分類器模式和訓練資料的類型。如需詳細資訊,請參閱多類模式和中的各節多標籤模式

增強資訊清單檔

增強資訊清單檔案是您使用「 SageMaker Ground Truth」建立的標記資料集。Ground Truth 是一項資料標籤服務,可協助您 (或您雇用的員工) 為機器學習模型建置訓練資料集。

如需有關 Ground Truth 及其產生輸出的詳細資訊,請參閱 Amazon SageMaker 開發人員指南中的使用 SageMaker Ground Truth 來標記資料

增強的資訊清單檔案採用JSON線條格式。在這些檔案中,每一行都是包含訓練文件及其關聯標籤的完整JSON物件。每行的確切內容取決於分類器模式。如需詳細資訊,請參閱多類模式和中的各節多標籤模式

當您將訓練資料提供給 Amazon Comprehend 時,您可以指定一個或多個標籤屬性名稱。您指定的屬性名稱數量取決於您的增強資訊清單檔案是單一標籤工作的輸出還是鏈結的標籤工作。

如果您的檔案是單一標籤工作的輸出,請從「Ground Truth」工作中指定單一標籤屬性名稱。

如果您的檔案是鏈結標籤工作的輸出,請為鏈結中的一或多個工作指定標籤屬性名稱。每個標籤屬性名稱均提供個別工作的註釋。您最多可以為鏈結標籤工作中的增強資訊清單檔案指定其中 5 個屬性。

如需有關鏈結標籤任務的詳細資訊,以及它們產生的輸出範例,請參閱 Amazon SageMaker 開發人員指南中的鏈結標籤任務