データセットを準備する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データセットを準備する

モデルカスタムジョブを開始する前に、最低限のトレーニングデータセットを必要があります。検証データセットがサポートされているかどうか、トレーニングデータセットと検証データセットの形式は、次の要因によって異なります。

  • カスタムジョブのタイプ (ファインチューニングまたは継続的な事前トレーニング)。

  • データの入力モダリティと出力モダリティ。

ファインチューニングと継続的なトレーニング前データ形式のモデルサポート

次の表は、各モデルでサポートされているファインチューニングおよび継続的なトレーニング前データ形式の詳細を示しています。

モデル名 微調整:Text-to-text 微調整: Text-to-image & Image-to-embeddings 継続的な事前トレーニング: Text-to-text ファインチューニング: シングルターンメッセージング ファインチューニング: マルチターンメッセージング
Amazon Titan Text G1 - Express あり なし あり いいえ いいえ
Amazon Titan Text G1 - Lite あり なし あり いいえ いいえ
Amazon Titan Text Premier あり いいえ いいえ いいえ いいえ
Amazon Titan Image Generator G1 V1 はい はい いいえ いいえ いいえ
Amazon Titan Multimodal Embeddings G1 G1 はい はい いいえ いいえ いいえ
Anthropic Claude 3 Haiku いいえ いいえ なし あり 可能
Cohere Command はい いいえ いいえ いいえ なし
Cohere Command Light あり いいえ いいえ いいえ いいえ
Meta Llama 2 13B あり いいえ いいえ いいえ いいえ
Meta Llama 2 70B あり いいえ いいえ いいえ いいえ

さまざまなモデルのカスタマイズに使用されるトレーニングデータセットと検証データセットに適用されるデフォルトのクォータを確認するには、 AWS 全般のリファレンスの「Amazon Bedrock endpoints and quotas」の「Sum of training and validation records」クオータを参照してください。

カスタムモデル用のトレーニングデータセットと検証データセットを準備する 

カスタムモデルのトレーニングデータセットと検証データセットを準備するには、.jsonlファイルを作成します。各行はレコードに対応するJSONオブジェクトです。作成するファイルは、選択したカスタマイズ方法とモデルの形式に沿っており、その中のレコードは、サイズ要件を満たしている必要があります。

形式は、カスタマイズ方法とモデルの入出力モダリティによって異なります。任意の方法のタブを選択し、ステップに従います。

Fine-tuning: Text-to-text

モデルの場合は text-to-text、トレーニングデータセットとオプションの検証データセットを準備します。各JSONオブジェクトは、 フィールドpromptcompletionフィールドの両方を含むサンプルです。トークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。

{"prompt": "<prompt1>", "completion": "<expected generated text>"} {"prompt": "<prompt2>", "completion": "<expected generated text>"} {"prompt": "<prompt3>", "completion": "<expected generated text>"}

次に、質問応答タスクの項目の例を示します。

{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
Fine-tuning: Text-to-image & Image-to-embeddings

または image-to-embedding text-to-imageモデルの場合は、トレーニングデータセットを準備します。検証データセットはサポートされていません。各JSONオブジェクトは、image-ref、イメージURIの Amazon S3、およびイメージのプロンプトcaptionとなる可能性のある を含むサンプルです。

イメージは JPEGまたは PNG形式である必要があります。

{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"} {"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

以下にサンプル項目を示します。

{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Amazon Bedrock がイメージファイルにアクセスできるようにするには、 コンソールでセットアップした、または自動的にセットアップされた Amazon Bedrock モデルカスタマイズサービスロールS3 のトレーニングファイルや検証ファイルにアクセスし、出力ファイルを書き込むアクセス許可に、 と同様の IAMポリシーを追加します。トレーニングデータセットで指定する Amazon S3 パスは、ポリシーで指定するフォルダに存在する必要があります。

Continued Pre-training: Text-to-text

モデルに対して継続的な事前トレーニングを実行するには、トレーニングデータセットとオプションの検証データセットを準備します text-to-text。継続的な事前トレーニングにはラベル付けされていないデータが含まれるため、各JSON行は inputフィールドのみを含むサンプルです。トークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。

{"input": "<input text>"} {"input": "<input text>"} {"input": "<input text>"}

以下は、トレーニングデータに含まれる可能性のある項目の例です。

{"input": "AWS stands for Amazon Web Services"}
Fine-tuning: Single-turn messaging

シングルターンメッセージング形式を使用してモデルを微調整するには、トレーニングデータセットとオプションの検証データセットを準備します text-to-text。両方のデータファイルは JSONL形式である必要があります。各行は JSON 形式で完全なデータサンプルを指定します。各データサンプルは 1 行にフォーマットする必要があります (各サンプル内のすべての「\n」を削除してください)。複数のデータサンプルがある 1 行、または複数の行にデータサンプルを分割しても機能しません。

[フィールド]

  • system (オプション): 会話のコンテキストを設定するシステムメッセージを含む文字列。

  • messages: メッセージオブジェクトの配列。それぞれに以下が含まれます。

    • role: user または assistant

    • content: メッセージのテキストコンテンツ

ルール

  • messages 配列には 2 つのメッセージが含まれている必要があります

  • 最初のメッセージにはユーザーの role が必要です

  • 最後のメッセージにはアシスタントの role が必要です

{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}

{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
Fine-tuning: Multi-turn messaging

マルチターンメッセージング形式を使用してモデルを微調整するには、トレーニングデータセットとオプションの検証データセットを準備します text-to-text。両方のデータファイルは JSONL形式である必要があります。各行は JSON 形式で完全なデータサンプルを指定します。各データサンプルは 1 行にフォーマットする必要があります (各サンプル内のすべての「\n」を削除してください)。複数のデータサンプルがある 1 行、または複数の行にデータサンプルを分割しても機能しません。

[フィールド]

  • system (オプション): 会話のコンテキストを設定するシステムメッセージを含む文字列。

  • messages: メッセージオブジェクトの配列。それぞれに以下が含まれます。

    • role: user または assistant

    • content: メッセージのテキストコンテンツ

ルール

  • messages 配列には最低 2 つのメッセージが含まれている必要があります

  • 最初のメッセージにはユーザーの role が必要です

  • 最後のメッセージにはアシスタントの role が必要です

  • メッセージは、user ロールと assistant ロールを交互に切り替えます。

{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}

{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
Distillation

モデル抽出ジョブのトレーニングデータセットと検証データセットを準備するには、「」を参照してくださいAmazon Bedrock モデル抽出の前提条件

タブを選択すると、モデルのトレーニングデータセットと検証データセットの要件が表示されます。

Amazon Titan Text Premier
説明 最大値 (ファインチューニング)
バッチサイズが 1 の場合の入力トークンと出力トークンの合計 4,096
バッチサイズが 2、3 または 4 の場合の入力トークンと出力トークンの合計 該当なし
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6
トレーニングデータセットのファイルサイズ 1 GB
検証データセットのファイルサイズ 100 MB
Amazon Titan Text G1 - Express
説明 最大値 (継続的な事前トレーニング) 最大値 (ファインチューニング)
バッチサイズが 1 の場合の入力トークンと出力トークンの合計 4,096 4,096
バッチサイズが 2、3 または 4 の場合の入力トークンと出力トークンの合計 2,048 2,048
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6 トークンクォータ x 6
トレーニングデータセットのファイルサイズ 10 GB 1 GB
検証データセットのファイルサイズ 100 MB 100 MB
Amazon Titan Text G1 - Lite
説明 最大値 (継続的な事前トレーニング) 最大値 (ファインチューニング)
バッチサイズが 1 または 2 の場合の入力トークンと出力トークンの合計 4,096 4,096
バッチサイズが 3、4、5 または 6 の場合の入力トークンと出力トークンの合計 2,048 2,048
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6 トークンクォータ x 6
トレーニングデータセットのファイルサイズ 10 GB 1 GB
検証データセットのファイルサイズ 100 MB 100 MB
Amazon Titan Image Generator G1 V1
説明 最小 (ファインチューニング) 最大値 (ファインチューニング)
トレーニングサンプルの文字単位のテキストプロンプトの長さ 3 1,024
トレーニングデータセット内のレコード 5 10,000
入力イメージサイズ 0 50 MB
入力イメージのピクセル単位の高さ 512 4,096
入力イメージのピクセル単位の幅 512 4,096
入力イメージのピクセル総数 0 12,582,912
入力イメージのアスペクト比 1:4 4:1
Amazon Titan Multimodal Embeddings G1
説明 最小 (ファインチューニング) 最大値 (ファインチューニング)
トレーニングサンプルの文字単位のテキストプロンプトの長さ 0 2,560
トレーニングデータセット内のレコード 1,000 500,000
入力イメージサイズ 0 5 MB
入力イメージのピクセル単位の高さ 128 4096
入力イメージのピクセル単位の幅 128 4096
入力イメージのピクセル総数 0 12,528,912
入力イメージのアスペクト比 1:4 4:1
Cohere Command
説明 最大値 (ファインチューニング)
入力トークン 4,096
出力トークン 2,048
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6
トレーニングデータセット内のレコード 10,000
検証データセット内のレコード 1,000
Meta Llama 2
説明 最大値 (ファインチューニング)
入力トークン 4,096
出力トークン 2,048
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6
Meta Llama 3.1
説明 最大値 (ファインチューニング)
入力トークン 16,000
出力トークン 16,000
データセット内のサンプルあたりの文字数クォータ トークンクォータ x 6