マルチクラスモード - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

マルチクラスモード

マルチクラス分類では、各文書に 1 つのクラスが割り当てられます。個々のクラスは相互に排他的です。たとえば、映画をコメディーかサイエンスフィクションに分類できますが、両方には分類できません。

注記

Amazon Comprehend コンソールでは、マルチクラスモードをシングルラベルモードと呼んでいます。

プレーンテキストモデル

プレーンテキストモデルをトレーニングするには、ラベル付きトレーニングデータを CSV ファイルまたは SageMaker Ground Truth の拡張マニフェストファイルとして提供できます。

CSV ファイル

調教分類子用 CSV ファイルの使用に関する一般的な情報は、「CSV ファイル」を参照してください。

調教データを 2 列の CSV ファイルとして提供します。各行の最初の列にはクラスラベルの値が入ります。2 列目には、そのクラスのサンプルテキスト文書が含まれています。各行は\n または\r\n で終えなければなりません。

3 つの文書を含んだ CSV ファイルの例を以下に示します。

CLASS,Text of document 1 CLASS,Text of document 2 CLASS,Text of document 3

次の例は、電子メールメッセージがスパムかどうかを検出するようにカスタム分類子を調教する CSV ファイルの 1 行を示しています。

SPAM,"Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com."

拡張マニフェストファイル

調教分類子用拡張マニフェストファイルの使用に関する一般的な情報は、「拡張マニフェストファイル」を参照してください。

プレーンテキスト文書の場合、拡張マニフェストファイルの各行は、調教文書、単一のクラス名、Ground Truth からのその他のメタデータを含んだ完全な JSON オブジェクトです。次の例は、スパムメールメッセージを認識するようにカスタム分類子を調教する拡張マニフェストファイルです。

{"source":"Document 1 text", "MultiClassJob":0, "MultiClassJob-metadata":{"confidence":0.62, "job-name":"labeling-job/multiclassjob", "class-name":"not_spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:36:45.814354", "type":"groundtruth/text-classification"}} {"source":"Document 2 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970530", "type":"groundtruth/text-classification"}} {"source":"Document 3 text", "MultiClassJob":1, "MultiClassJob-metadata":{"confidence":0.81, "job-name":"labeling-job/multiclassjob", "class-name":"spam", "human-annotated":"yes", "creation-date":"2020-05-21T17:37:51.970566", "type":"groundtruth/text-classification"}}

次の例は、拡張マニフェストファイル内の 1 つの JSON オブジェクトを、読みやすくフォーマットして示しています。

{ "source": "Paulo, your $1000 award is waiting for you! Claim it while you still can at http://example.com.", "MultiClassJob": 0, "MultiClassJob-metadata": { "confidence": 0.98, "job-name": "labeling-job/multiclassjob", "class-name": "spam", "human-annotated": "yes", "creation-date": "2020-05-21T17:36:45.814354", "type": "groundtruth/text-classification" } }

この例では、source 属性は調教文書のテキストを示し、MultiClassJob 属性は分類リストからクラスのインデックスを割り当てます。job-name 属性は、Ground Truth でラベル付けジョブ用に定義した名前です。

Amazon Comprehend で分類子調教ジョブを開始するときは、同じラベリングジョブ名を指定します。

ネイティブ文書モデル

ネイティブ文書モデルは、ネイティブ文書 (PDF、DOCX、画像など) を使用して調教するモデルです。調教データを CSV ファイルとして提供します。

CSV ファイル

調教分類子用 CSV ファイルの使用に関する一般的な情報は、「CSV ファイル」を参照してください。

調教データを 3 列の CSV ファイルとして提供します。各行の最初の列にはクラスラベルの値が入ります。2 列目には、そのクラスのサンプル文書が入ります。3 列目にはページ番号が入ります。サンプル文書が画像の場合、ページ番号は省略可能です。

3 つの入力文書を示す CSV ファイルの例を以下に示します。

CLASS,input-doc-1.pdf,3 CLASS,input-doc-2.docx,1 CLASS,input-doc-3.png

次の例は、電子メールメッセージがスパムかどうかを検出するようにカスタム分類子を調教する CSV ファイルの 1 行を示しています。PDF ファイルの 2 ページ目には、スパムの例が含まれています。

SPAM,email-content-3.pdf,2