

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

# 分類子調教データの作成
<a name="prep-classifier-data"></a>

カスタム分類では、マルチクラスモードまたはマルチラベルモードでモデルを調教します。マルチクラスモードでは、各文書に 1 つのクラスが関連付けられます。マルチラベルモードでは、1 つ以上のクラスが各文書に関連付けられます。入力ファイル形式はモードごとに異なるため、調教データを作成する前に使用するモードを選択してください。

**注記**  
Amazon Comprehend コンソールでは、マルチクラスモードをシングルラベルモードと呼んでいます。

カスタム分類は、プレーンテキストの文書で調教するモデルと、ネイティブ文書 (PDF、Word、画像など) で調教するモデルをサポートします。分類子モデルとそれらがサポートする文書タイプの詳細については、「[調教分類モデル](training-classifier-model.md)」を参照してください。

カスタム分類子モデルの調教データを作成するには: 

1. この分類子に分析させたいクラスを特定します。使用するモード (マルチクラスまたはマルチラベル) を決定します。

1. モデルがプレーンテキスト文書の分析用か、半構造化文書の分析用かに応じて、分類子モデルのタイプを決定します。

1. 各クラスの文書例を集めます。最小調教要件については、「[ドキュメント分類の一般的なクォータ](guidelines-and-limits.md#limits-class-general)」を参照してください。

1. プレーンテキストモデルの場合は、使用する調教ファイル形式 (CSV ファイルまたは拡張マニフェストファイル) を選択します。ネイティブ文書モデルを調教するには、必ず CSV ファイルを使用します。

**Topics**
+ [分類子調教ファイルの形式](prep-class-data-format.md)
+ [マルチクラスモード](prep-classifier-data-multi-class.md)
+ [マルチラベルモード](prep-classifier-data-multi-label.md)

# 分類子調教ファイルの形式
<a name="prep-class-data-format"></a>

プレーンテキストモデルの場合、分類子トレーニングデータを CSV ファイルとして、または SageMaker AI Ground Truth を使用して作成した拡張マニフェストファイルとして指定できます。CSV ファイルまたは拡張マニフェストファイルには、各調教文書のテキストとそれに関連するラベルが含まれます。

ネイティブ文書モデルの場合は、分類子調教データを CSV ファイルとして提供します。CSV ファイルには、各調教文書のテキストとそれに関連するラベルが含まれます。調教文書は、調教グジョブの Amazon S3 入力フォルダに含めます。

## CSV ファイル
<a name="prep-data-csv"></a>

ラベル付き調教データを UTF-8 でエンコードされたテキストとして CSV ファイルで提供します。ヘッダー行を含めないでください。ファイルにヘッダー行を追加すると、ランタイムエラーが発生する可能性があります。

CSV ファイルの各行の最初の列には 1 つ以上のクラスラベルが含まれます。クラスラベルは、有効な UTF-8 文字列であれば何でもかまいません。意味が重複しない明確なクラス名を使用することをお勧めします。名前には空白を含めることができ、複数の単語をアンダースコアまたはハイフンでつなげてもかまいません。

行内の値を区切るカンマの前後にスペース文字を入れないでください。

CSV ファイルの正確な内容は、分類子モードと調教データのタイプによって異なります。詳細については、「[マルチクラスモード](prep-classifier-data-multi-class.md)」と「[マルチラベルモード](prep-classifier-data-multi-label.md)」のセクションを参照してください。

## 拡張マニフェストファイル
<a name="prep-data-annotations"></a>

拡張マニフェストファイルは、SageMaker AI Ground Truth を使用して作成するラベル付きデータセットです。Ground Truth は、自分または自分の雇用する従業員が、機械学習モデルの調教データセットを構築するのに役立つデータラベル付けサービスです。

Ground Truth とそれが生成する出力の詳細については、「Amazon [SageMaker AI デベロッパーガイド」の「SageMaker AI Ground Truth を使用してデータにラベル](https://docs.aws.amazon.com/sagemaker/latest/dg/sms.html)を付ける」を参照してください。 *Amazon SageMaker *

拡張マニフェストファイルは JSON 行形式になります。これらのファイルでは、各行は調教文書と関連ラベルを含む完全な JSON オブジェクトです。各行の正確な内容は、分類子モードによって異なります。詳細については、「[マルチクラスモード](prep-classifier-data-multi-class.md)」と「[マルチラベルモード](prep-classifier-data-multi-label.md)」のセクションを参照してください。

調教データを Amazon Comprehend に提供するときは、1 つ以上のラベル属性名を指定します。指定する属性名の数は、拡張マニフェストファイルが単一のラベリングジョブの出力であるか、チェーンラベリングジョブの出力であるかによって異なります。

ファイルが 1 つのラベル付けジョブの出力である場合は、Ground Truth ジョブの単一ラベル属性名を指定します。

ファイルがチェーンラベリングジョブの出力である場合は、チェーン内の 1 つ以上のジョブに対するラベル属性名を指定します。各ラベル属性名には、それぞれ 1 つのジョブのアノテーションが含まれます。チェーンラベリングジョブの拡張マニフェストファイルには、これらの属性のうち最大 5 つを指定できます。

連鎖ラベル付けジョブの詳細、およびそれらが生成する出力の例については、[「Amazon SageMaker AI デベロッパーガイド」の「連鎖ラベル付けジョブ](https://docs.aws.amazon.com/sagemaker/latest/dg/sms-reusing-data.html)」を参照してください。 Amazon SageMaker 

# マルチクラスモード
<a name="prep-classifier-data-multi-class"></a>

マルチクラス分類では、各文書に 1 つのクラスが割り当てられます。個々のクラスは相互に排他的です。たとえば、映画をコメディーかサイエンスフィクションに分類できますが、両方には分類できません。

**注記**  
Amazon Comprehend コンソールでは、マルチクラスモードをシングルラベルモードと呼んでいます。

**Topics**
+ [プレーンテキストモデル](#prep-multi-class-plaintext)
+ [ネイティブ文書モデル](#prep-multi-class-structured)

## プレーンテキストモデル
<a name="prep-multi-class-plaintext"></a>

プレーンテキストモデルをトレーニングするには、ラベル付きトレーニングデータを CSV ファイルまたは SageMaker AI Ground Truth の拡張マニフェストファイルとして提供できます。

### CSV ファイル
<a name="prep-multi-class-plaintext-csv"></a>

調教分類子用 CSV ファイルの使用に関する一般的な情報は、「[CSV ファイル](prep-class-data-format.md#prep-data-csv)」を参照してください。

調教データを 2 列の CSV ファイルとして提供します。各行の最初の列にはクラスラベルの値が入ります。2 列目には、そのクラスのサンプルテキスト文書が含まれています。各行は\$1n または\$1r\$1n で終えなければなりません。

3 つの文書を含んだ CSV ファイルの例を以下に示します。

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS,Text of document 3
```

次の例は、電子メールメッセージがスパムかどうかを検出するようにカスタム分類子を調教する CSV ファイルの 1 行を示しています。

```
SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."
```

### 拡張マニフェストファイル
<a name="prep-multi-class-plaintext-manifest"></a>

調教分類子用拡張マニフェストファイルの使用に関する一般的な情報は、「[拡張マニフェストファイル](prep-class-data-format.md#prep-data-annotations)」を参照してください。

プレーンテキスト文書の場合、拡張マニフェストファイルの各行は、調教文書、単一のクラス名、Ground Truth からのその他のメタデータを含んだ完全な JSON オブジェクトです。次の例は、スパムメールメッセージを認識するようにカスタム分類子を調教する拡張マニフェストファイルです。

```
{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}}
{"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}}
{"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}
```

 次の例は、拡張マニフェストファイル内の 1 つの JSON オブジェクトを、読みやすくフォーマットして示しています。

```
{
   "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.",
   "MultiClassJob": 0,
   "MultiClassJob-metadata": {
       "confidence": 0.98,
       "job-name": "labeling-job/multiclassjob",
       "class-name": "spam",
       "human-annotated": "yes",
       "creation-date": "2020-05-21T17:36:45.814354",
       "type": "groundtruth/text-classification"
   }
}
```

この例では、`source` 属性は調教文書のテキストを示し、`MultiClassJob` 属性は分類リストからクラスのインデックスを割り当てます。`job-name` 属性は、Ground Truth でラベル付けジョブ用に定義した名前です。

 Amazon Comprehend で分類子調教ジョブを開始するときは、同じラベリングジョブ名を指定します。

## ネイティブ文書モデル
<a name="prep-multi-class-structured"></a>

ネイティブ文書モデルは、ネイティブ文書 (PDF、DOCX、画像など) を使用して調教するモデルです。調教データを CSV ファイルとして提供します。

### CSV ファイル
<a name="prep-multi-class-structured-csv"></a>

調教分類子用 CSV ファイルの使用に関する一般的な情報は、「[CSV ファイル](prep-class-data-format.md#prep-data-csv)」を参照してください。

調教データを 3 列の CSV ファイルとして提供します。各行の最初の列にはクラスラベルの値が入ります。2 列目には、そのクラスのサンプル文書が入ります。3 列目にはページ番号が入ります。サンプル文書が画像の場合、ページ番号は省略可能です。

3 つの入力文書を示す CSV ファイルの例を以下に示します。

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS,input-doc-3.png
```

次の例は、電子メールメッセージがスパムかどうかを検出するようにカスタム分類子を調教する CSV ファイルの 1 行を示しています。PDF ファイルの 2 ページ目には、スパムの例が含まれています。

```
SPAM,email-content-3.pdf,2
```

# マルチラベルモード
<a name="prep-classifier-data-multi-label"></a>

マルチラベルモードでは、個々のクラスは相互に排他的ではない異種カテゴリを表します。マルチクラス分類では、各文書に 1 つまたは複数のクラスが割り当てられます。たとえば、ある映画をドキュメンタリーとして分類し、別の映画をサイエンスフィクション、アクション、コメディーとして分類できます。

調教用に、マルチラベルモードでは最大 100 のユニークなクラスを含む最大 100 万件のサンプルがサポートされます。

**Topics**
+ [プレーンテキストモデル](#prep-multi-label-plaintext)
+ [ネイティブ文書モデル](#prep-multi-label-structured)

## プレーンテキストモデル
<a name="prep-multi-label-plaintext"></a>

プレーンテキストモデルをトレーニングするには、ラベル付きトレーニングデータを CSV ファイルまたは SageMaker AI Ground Truth の拡張マニフェストファイルとして提供できます。

### CSV ファイル
<a name="prep-multi-label-plaintext-csv"></a>

調教分類子用 CSV ファイルの使用に関する一般的な情報は、「[CSV ファイル](prep-class-data-format.md#prep-data-csv)」を参照してください。

調教データを 2 列の CSV ファイルとして提供します。各行の最初の列にはクラスラベルの値が含まれ、2 番目の列にはこれらのクラスのサンプルテキスト文書が含まれます。1 列目に複数のクラスを入力するには、各クラスの間に区切り文字 (\$1 など) を使用します。

```
CLASS,Text of document 1
CLASS,Text of document 2
CLASS|CLASS|CLASS,Text of document 3
```

次の例は、映画の抄録に含まれるジャンルを検出するようにカスタム分類子を調教する CSV ファイルの 1 行を示しています。

```
COMEDY|MYSTERY|SCIENCE_FICTION|TEEN,"A band of misfit teens become unlikely detectives when they discover troubling clues about their high school English teacher. Could the strange Mrs. Doe be an alien from outer space?"
```

クラス名の間のデフォルトの区切り文字はパイプ (\$1) です。ただし、別の文字を区切り文字として使用できます。区切り文字はクラス名のすべての文字と区別する必要があります。たとえば、クラスが CLASS\$11、CLASS\$12、CLASS\$13 の場合、アンダースコア (**\$1**) はクラス名の一部です。そのため、クラス名を区切る区切り文字として、アンダースコアは使用しないでください。

### 拡張マニフェストファイル
<a name="prep-multi-label-plaintext-manifest"></a>

調教分類子用拡張マニフェストファイルの使用に関する一般的な情報は、「[拡張マニフェストファイル](prep-class-data-format.md#prep-data-annotations)」を参照してください。

プレーンテキスト文書の場合、拡張マニフェストファイルの各行は完全な JSON オブジェクトです。これには、調教文書、クラス名、Ground Truthのその他のメタデータが含まれています。次の例は、映画の抄録内のジャンルを検出するようにカスタム分類子を調教する拡張マニフェストファイルです。

```
{"source":"Document 1 text", "MultiLabelJob":[0,4], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"0":"action", "4":"drama"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:02:21.521882", "confidence-map":{"0":0.66}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 2 text", "MultiLabelJob":[3,6], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"3":"comedy", "6":"horror"}, "human-annotated":"yes", "creation-date":"2020-05-21T19:00:01.291202", "confidence-map":{"1":0.61,"0":0.61}, "type":"groundtruth/text-classification-multilabel"}}
{"source":"Document 3 text", "MultiLabelJob":[1], "MultiLabelJob-metadata":{"job-name":"labeling-job/multilabeljob", "class-map":{"1":"action"}, "human-annotated":"yes", "creation-date":"2020-05-21T18:58:51.662050", "confidence-map":{"1":0.68}, "type":"groundtruth/text-classification-multilabel"}}
```

 次の例は、拡張マニフェストファイル内の 1 つの JSON オブジェクトを、読みやすくフォーマットして示しています。

```
{
      "source": "A band of misfit teens become unlikely detectives when 
                   they discover troubling clues about their high school English teacher. 
                     Could the strange Mrs. Doe be an alien from outer space?",
      "MultiLabelJob": [
          3,
          8,
          10,
          11
      ],
      "MultiLabelJob-metadata": {
          "job-name": "labeling-job/multilabeljob",
          "class-map": {
              "3": "comedy",
              "8": "mystery",
              "10": "science_fiction",
              "11": "teen"
          },
          "human-annotated": "yes",
          "creation-date": "2020-05-21T19:00:01.291202",
          "confidence-map": {
              "3": 0.95,
              "8": 0.77,
              "10": 0.83,
              "11": 0.92
          },
          "type": "groundtruth/text-classification-multilabel"
      }
  }
```

この例では、`source` 属性は調教文書のテキストを示し、`MultiLabelJob` 属性は分類リストから複数のクラスのインデックスを割り当てます。`MultiLabelJob` メタデータのジョブ名は、Ground Truth でラベル付けジョブ用に定義した名前です。

## ネイティブ文書モデル
<a name="prep-multi-label-structured"></a>

ネイティブ文書モデルは、ネイティブ文書 (PDF、DOCX、画像ファイルなど) を使用して調教するモデルです。ラベル付きの調教データを CSV ファイルとして提供します。

### CSV ファイル
<a name="prep-multi-label-structured-csv"></a>

調教分類子用 CSV ファイルの使用に関する一般的な情報は、「[CSV ファイル](prep-class-data-format.md#prep-data-csv)」を参照してください。

調教データを 3 列の CSV ファイルとして提供します。各行の最初の列にはクラスラベルの値が入ります。2 列目には、そのクラスのサンプル文書が入ります。3 列目にはページ番号が入ります。サンプル文書が画像の場合、ページ番号は省略可能です。

1 列目に複数のクラスを入力するには、各クラスの間に区切り文字 (\$1 など) を使用します。

```
CLASS,input-doc-1.pdf,3
CLASS,input-doc-2.docx,1
CLASS|CLASS|CLASS,input-doc-3.png,2
```

次の例は、映画の抄録に含まれるジャンルを検出するようにカスタム分類子を調教する CSV ファイルの 1 行を示しています。PDF ファイルの 2 ページ目には、コメディー/ティーン向け映画の例が含まれています。

```
COMEDY|TEEN,movie-summary-1.pdf,2
```

クラス名の間のデフォルトの区切り文字はパイプ (\$1) です。ただし、別の文字を区切り文字として使用できます。区切り文字はクラス名のすべての文字と区別する必要があります。たとえば、クラスが CLASS\$11、CLASS\$12、CLASS\$13 の場合、アンダースコア (**\$1**) はクラス名の一部です。そのため、クラス名を区切る区切り文字として、アンダースコアは使用しないでください。