入力マニフェストファイルを使用する - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

入力マニフェストファイルを使用する

入力マニフェストファイルの各行は、ラベル付けするオブジェクトまたはオブジェクトへの参照を含むエントリです。エントリには、以前のジョブのラベルや、一部のタスクタイプの追加情報を含めることもできます。

入力データとマニフェストファイルは、Amazon Simple Storage Service (Amazon S3) に保存する必要があります。それぞれに、以下のような特定のストレージおよびアクセス要件があります。

  • 入力データを含む Amazon S3 バケットは、Amazon SageMaker Ground Truth を実行しているリージョンと同じ AWS リージョンにある必要があります。Amazon S3 バケットに保存されているデータ SageMaker に対するアクセス権を Amazon に付与して、Amazon S3 バケットがデータを読み取れるようにする必要があります。 Amazon S3 Amazon S3 バケットの詳細については、「Amazon S3 バケットの使用」を参照してください。

  • マニフェストファイルは、データファイルと同じ AWS リージョンにある必要がありますが、データファイルと同じ場所にある必要はありません。これは、ラベル付けジョブの作成時に Ground Truth に割り当てた AWS Identity and Access Management (IAM) ロールにアクセスできる任意の Amazon S3 バケットに保存できます。

注記

3D 点群と動画フレームタスクタイプでは、入力マニフェストの要件と属性が異なります。

3D 点群タスクタイプについては、「3D 点群のラベル付けジョブの入力マニフェストファイルの作成」を参照してください。

動画フレームタスクタイプについては、「動画フレームの入力マニフェストファイルを作成する」を参照してください。

マニフェストは UTF-8 でエンコードされたファイルであり、その各行は完全かつ有効な JSON オブジェクトです。各行は、標準の改行 \n や \r\n で区切られています。各行は有効な JSON オブジェクトにする必要があるため、エスケープされない改行文字を使用することはできません。データ形式の詳細については、JSON Lines を参照してください。

マニフェストファイル内の各 JSON オブジェクトは 100,000 文字を超えることはできません。オブジェクト内のいずれの属性も 20,000 文字を超えることはできません。属性名は $ (ドル記号) で始めることはできません。

マニフェストファイルの各 JSON オブジェクトには、source-ref または source キーのいずれかが含まれている必要があります。キーの値は、次のように解釈されます。

  • source-ref - オブジェクトのソースは、値に指定された Amazon S3 オブジェクトです。オブジェクトがイメージなどのバイナリオブジェクトである場合、この値を使用します。

  • source - オブジェクトのソースが値です。オブジェクトがテキスト値の場合は、この値を使用します。

Amazon S3 バケットに保存されたファイルのマニフェストファイルの例を次に示します。

{"source-ref": "S3 bucket location 1"} {"source-ref": "S3 bucket location 2"} ... {"source-ref": "S3 bucket location n"}

境界ボックス、イメージ分類 (単一ラベルと複数ラベル)、セマンティックセグメンテーション、動画分類用の動画クリップのラベル付けジョブ用のイメージファイルには、source-ref キーを使用します。3D 点群と動画フレームのラベル付けジョブも source-ref キーを使用しますが、これらのラベル付けジョブには、入力マニフェストファイル内の追加情報が必要です。詳細については、「3D 点群の入力データ」と「動画フレーム入力データ」を参照してください。

マニフェストファイルと、マニフェストに保存された入力データの例を次に示します。

{"source": "Lorem ipsum dolor sit amet"} {"source": "consectetur adipiscing elit"} ... {"source": "mollit anim id est laborum"}

単一ラベルと複数ラベルのテキスト分類と固有表現認識ラベル付けジョブには、source キーを使用します。

他のキーと値のペアをマニフェストファイルに含めることができます。これらのペアは変更されずに出力ファイルに渡されます。これは、アプリケーション間で情報を渡す場合に便利です。詳細については、「出力データ」を参照してください。