分類子調教ファイルの形式 - Amazon Comprehend

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

分類子調教ファイルの形式

プレーンテキストモデルの場合、分類子トレーニングデータを CSV ファイルまたは SageMaker Ground Truth を使用して作成した拡張マニフェストファイルとして提供できます。CSV ファイルまたは拡張マニフェストファイルには、各調教文書のテキストとそれに関連するラベルが含まれます。

ネイティブ文書モデルの場合は、分類子調教データを CSV ファイルとして提供します。CSV ファイルには、各調教文書のテキストとそれに関連するラベルが含まれます。調教文書は、調教グジョブの Amazon S3 入力フォルダに含めます。

CSV ファイル

ラベル付き調教データを UTF-8 でエンコードされたテキストとして CSV ファイルで提供します。ヘッダー行を含めないでください。ファイルにヘッダー行を追加すると、ランタイムエラーが発生する可能性があります。

CSV ファイルの各行の最初の列には 1 つ以上のクラスラベルが含まれます。クラスラベルは、有効な UTF-8 文字列であれば何でもかまいません。意味が重複しない明確なクラス名を使用することをお勧めします。名前には空白を含めることができ、複数の単語をアンダースコアまたはハイフンでつなげてもかまいません。

行内の値を区切るカンマの前後にスペース文字を入れないでください。

CSV ファイルの正確な内容は、分類子モードと調教データのタイプによって異なります。詳細については、「マルチクラスモード」と「マルチラベルモード」のセクションを参照してください。

拡張マニフェストファイル

拡張マニフェストファイルは、 SageMaker Ground Truth を使用して作成するラベル付きデータセットです。Ground Truth は、自分または自分の雇用する従業員が、機械学習モデルの調教データセットを構築するのに役立つデータラベル付けサービスです。

Ground Truth とその出力の詳細については、Amazon SageMaker デベロッパーガイドの「 SageMaker Ground Truth を使用してデータにラベルを付ける」を参照してください。

拡張マニフェストファイルは JSON 行形式になります。これらのファイルでは、各行は調教文書と関連ラベルを含む完全な JSON オブジェクトです。各行の正確な内容は、分類子モードによって異なります。詳細については、「マルチクラスモード」と「マルチラベルモード」のセクションを参照してください。

調教データを Amazon Comprehend に提供するときは、1 つ以上のラベル属性名を指定します。指定する属性名の数は、拡張マニフェストファイルが単一のラベリングジョブの出力であるか、チェーンラベリングジョブの出力であるかによって異なります。

ファイルが 1 つのラベル付けジョブの出力である場合は、Ground Truth ジョブの単一ラベル属性名を指定します。

ファイルがチェーンラベリングジョブの出力である場合は、チェーン内の 1 つ以上のジョブに対するラベル属性名を指定します。各ラベル属性名には、それぞれ 1 つのジョブのアノテーションが含まれます。チェーンラベリングジョブの拡張マニフェストファイルには、これらの属性のうち最大 5 つを指定できます。

連鎖ラベル付けジョブの詳細と、それらが生成する出力の例については、Amazon SageMaker デベロッパーガイドの「連鎖ラベル付けジョブ」を参照してください。