データセットを準備する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データセットを準備する

モデルのカスタマイズ作業を開始する前に、最低限必要なトレーニングデータセットの準備が必要です。検証データセットがサポートされているかどうか、またトレーニングデータセットと検証データセットの形式は、以下の要因によって決まります。

  • カスタマイズジョブのタイプ (「微調整」または「事前トレーニングの継続」)。

  • データの入力と出力のモダリティ。

さまざまなモデルのデータセットとファイルの要件を確認するには、を参照してくださいモデルカスタマイズのクォータ

ユースケースに関連するタブを選択してください。

Fine-tuning: Text-to-text

text-to-text モデルを微調整するには、複数の JSON 行を含む JSONL ファイルを作成して、トレーニングデータセットとオプションの検証データセットを準備します。JSON の各行は、とフィールドの両方を含むサンプルです。prompt completionトークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

次に、質問応答タスクの項目の例を示します。

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

text-to-image OR image-to-embedding モデルを微調整するには、複数の JSON 行を含む JSONL ファイルを作成してトレーニングデータセットを準備します。検証データセットはサポートされていません。各 JSON 行は、画像の Amazon S3 URI である image-ref と、画像のプロンプトとなる可能性がある caption を含むサンプルです。

画像は、PNG または JPEG 形式である必要があります。

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

以下にサンプル項目を示します。

{"image-ref": "s3://my-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Amazon Bedrock がイメージファイルにアクセスできるようにするには、設定した、トレーニングファイルや検証ファイルにアクセスし、S3 に出力ファイルを書き込む権限またはコンソールで自動的に設定された Amazon Bedrock モデルカスタマイズサービスロールの IAM ポリシーと同様の IAM ポリシーを追加します。トレーニングデータセットで指定する Amazon S3 パスは、ポリシーで指定するフォルダに存在する必要があります。

Continued Pre-training: Text-to-text

text-to-text モデルのプレトレーニングを継続して実施するには、複数の JSON 行を含む JSONL ファイルを作成して、トレーニングデータセットとオプションの検証データセットを準備します。継続的プレトレーニングにはラベルのないデータが含まれるため、各 JSON 行は 1 つのフィールドのみを含むサンプルです。inputトークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

以下は、トレーニングデータに含まれる可能性のある項目の例です。

{"input": "AWS stands for Amazon Web Services"}