多標籤模式

在多標籤模式中，個別類別代表非互斥的不同類別。多標籤分類會為每個文件指派一或多個類別。例如，您可以將一部電影分類為紀錄片，將另一部電影分類為科幻小說、動作和喜劇。

對於訓練，多標籤模式最多支援 100 萬個範例，其中包含最多 100 個唯一類別。

主題

純文字模型
原生文件模型

純文字模型

若要訓練純文字模型，您可以將標記的訓練資料提供為 CSV 檔案或 SageMaker AI Ground Truth 的擴增資訊清單檔案。

CSV 檔案

如需針對訓練分類器使用 CSV 檔案的一般資訊，請參閱 CSV 檔案。

以兩欄 CSV 檔案提供訓練資料。對於每一列，第一欄包含類別標籤值，第二欄包含這些類別的範例文字文件。若要在第一欄中輸入多個類別，請在每個類別之間使用分隔符號（例如 | )。


CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3

以下範例顯示 CSV 檔案的一列，該檔案會訓練自訂分類器來偵測電影摘要中的類型：


COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"

類別名稱之間的預設分隔符號是管道 (|)。不過，您可以使用不同的字元做為分隔符號。分隔符號必須與類別名稱中的所有字元不同。例如，如果您的類別是 CLASS_1、CLASS_2 和 CLASS_3，底線 (_) 是類別名稱的一部分。因此，請勿使用底線作為分隔類別名稱的分隔符號。

增強的資訊清單檔案

如需針對訓練分類器使用擴增資訊清單檔案的一般資訊，請參閱增強的資訊清單檔案。

對於純文字文件，擴增資訊清單檔案的每一行都是完整的 JSON 物件。它包含來自 Ground Truth 的訓練文件、類別名稱和其他中繼資料。下列範例是擴增資訊清單檔案，用於訓練自訂分類器以偵測電影摘要中的類型：


{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}

下列範例顯示擴增資訊清單檔案中的一個 JSON 物件，格式為可讀性：


{
      "source": "A band of misfit teens become unlikely detectives when 
                   they discover troubling clues about their high school English teacher. 
                     Could the strange Mrs. Doe be an alien from outer space?",
      "MultiLabelJob": [
          3,
          8,
          10,
          11
      ],
      "MultiLabelJob-metadata": {
          "job-name": "labeling-job/multilabeljob",
          "class-map": {
              "3": "comedy",
              "8": "mystery",
              "10": "science_fiction",
              "11": "teen"
          },
          "human-annotated": "yes",
          "creation-date": "2020-05-21T19:00:01.291202",
          "confidence-map": {
              "3": 0.95,
              "8": 0.77,
              "10": 0.83,
              "11": 0.92
          },
          "type": "groundtruth/text-classification-multilabel"
      }
  }

在此範例中， source 屬性會提供訓練文件的文字，而 MultiLabelJob 屬性會從分類清單中指派數個類別的索引。MultiLabelJob 中繼資料中的任務名稱是您為 Ground Truth 中的標記任務定義的名稱。

原生文件模型

原生文件模型是您使用原生文件（例如 PDF、DOCX 和映像檔案）訓練的模型。您提供標示的訓練資料做為 CSV 檔案。

CSV 檔案

如需針對訓練分類器使用 CSV 檔案的一般資訊，請參閱 CSV 檔案。

以三欄 CSV 檔案提供訓練資料。對於每一列，第一欄包含類別標籤值。第二欄包含這些類別的範例文件的檔案名稱。第三欄包含頁碼。如果範例文件是影像，則頁碼為選用。

若要在第一欄中輸入多個類別，請在每個類別之間使用分隔符號（例如 | )。


CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2

下列範例顯示 CSV 檔案的一列，該檔案會訓練自訂分類器來偵測電影摘要中的類型。PDF 檔案的第 2 頁包含喜劇/少年電影的範例。


COMEDY|TEEN,movie-summary-1.pdf,2

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

多類別模式

訓練分類模型