多標籤模式 - Amazon Comprehend

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

多標籤模式

在多標籤模式下,個別類別代表不相互排斥的不同類別。多標籤分類為每個文檔分配一個或多個類。例如,您可以將一部電影歸類為「紀錄片」,將另一部電影歸類為「科幻小說」、「動作」和「喜劇」。

對於培訓,多標籤模式支持多達 100 萬個示例,其中包含多達 100 個獨特的課程。

純文字模型

若要訓練純文字模型,您可以將標籤化的訓練資料提供為 CSV 檔案或 SageMaker Ground Truth 的增強資訊清單檔案。

CSV 檔案

如需將 CSV 檔案用於訓練分類器的一般資訊,請參閱CSV 檔案

將訓練資料提供為兩欄 CSV 檔案。對於每一列,第一欄包含類別標籤值,第二欄包含這些類別的範例文字文件。要在第一列中輸入多個類別,請在每個類別之間使用分隔符號(如 |)。

CLASS,Text of document 1 CLASS,Text of document 2 CLASS|CLASS|CLASS,Text of document 3

下列範例會顯示 CSV 檔案的其中一列,該資料列會訓練自訂分類器,以偵測電影摘要中的類型:

COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"

類別名稱之間的預設分隔符號為管線 (|)。但是,您可以使用不同的字元作為分隔符號。分隔符號必須與類別名稱中的所有字元不同。例如,如果您的類別是 CLASS_1、CLASS_2 和 CLASS_3,則底線 (_) 就是類別名稱的一部分。所以不要使用下劃線作為分隔類名的分隔符。

增強清單文件

如需有關針對訓練分類器使用增強資訊清單檔案的一般資訊,請參閱增強清單文件

對於純文字文件,增強資訊清單檔案的每一行都是完整的 JSON 物件。它包含一個培訓文檔,類名和其他元數據 Ground Truth。下列範例是增強資訊清單檔案,用於訓練自訂分類器以偵測電影摘要中的類型:

{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}} {"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}

下列範例顯示增強資訊清單檔案中的一個 JSON 物件,其格式化為可讀性:

{ "source": "A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?", "MultiLabelJob": [ 3, 8, 10, 11 ], "MultiLabelJob-metadata": { "job-name": "labeling-job/multilabeljob", "class-map": { "3": "comedy", "8": "mystery", "10": "science_fiction", "11": "teen" }, "human-annotated": "yes", "creation-date": "2020-05-21T19:00:01.291202", "confidence-map": { "3": 0.95, "8": 0.77, "10": 0.83, "11": 0.92 }, "type": "groundtruth/text-classification-multilabel" } }

在此範例中,source屬性提供訓練文件的文字,而MultiLabelJob屬性會從分類清單中指派數個類別的索引。中MultiLabelJob繼資料中的工作名稱是您在 Ground Truth 中為標籤工作定義的名稱。

原生文件模型

原生文件模型是您使用原生文件 (例如 PDF、DOCX 和影像檔案) 進行訓練的模型。您可以將標籤化的訓練資料提供為 CSV 檔案。

CSV 檔案

如需將 CSV 檔案用於訓練分類器的一般資訊,請參閱CSV 檔案

將訓練資料提供為三欄 CSV 檔案。對於每一列,第一欄包含類別標籤值。第二欄包含這些類別的範例文件的檔案名稱。第三列包含頁碼。如果範例文件是影像,則頁碼為選用。

要在第一列中輸入多個類別,請在每個類別之間使用分隔符號(如 |)。

CLASS,input-doc-1.pdf,3 CLASS,input-doc-2.docx,1 CLASS|CLASS|CLASS,input-doc-3.png,2

下列範例會顯示 CSV 檔案中的一列,這些檔案會訓練自訂分類器,以偵測電影摘要中的類型。PDF 文件的第 2 頁包含喜劇/青少年電影的示例。

COMEDY|TEEN,movie-summary-1.pdf,2

類別名稱之間的預設分隔符號為管線 (|)。但是,您可以使用不同的字元作為分隔符號。分隔符號必須與類別名稱中的所有字元不同。例如,如果您的類別是 CLASS_1、CLASS_2 和 CLASS_3,則底線 (_) 就是類別名稱的一部分。所以不要使用下劃線作為分隔類名的分隔符。