翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
データセットを準備する
モデルカスタムジョブを開始する前に、最低限のトレーニングデータセットを必要があります。検証データセットがサポートされているかどうか、トレーニングデータセットと検証データセットの形式は、次の要因によって異なります。
ファインチューニングと継続的なトレーニング前データ形式のモデルサポート
次の表は、各モデルでサポートされているファインチューニングおよび継続的なトレーニング前データ形式の詳細を示しています。
モデル名 |
微調整:Text-to-text |
微調整: Text-to-image & Image-to-embeddings |
継続的な事前トレーニング: Text-to-text |
ファインチューニング: シングルターンメッセージング |
ファインチューニング: マルチターンメッセージング |
Amazon Titan Text G1 - Express |
あり |
なし |
あり |
いいえ |
いいえ |
Amazon Titan Text G1 - Lite |
あり |
なし |
あり |
いいえ |
いいえ |
Amazon Titan Text Premier |
あり |
いいえ |
いいえ |
いいえ |
いいえ |
Amazon Titan Image Generator G1 V1 |
はい |
はい |
いいえ |
いいえ |
いいえ |
Amazon Titan Multimodal Embeddings G1 G1 |
はい |
はい |
いいえ |
いいえ |
いいえ |
Anthropic Claude 3 Haiku |
いいえ |
いいえ |
なし |
あり |
可能 |
Cohere Command |
はい |
いいえ |
いいえ |
いいえ |
なし |
Cohere Command Light |
あり |
いいえ |
いいえ |
いいえ |
いいえ |
Meta Llama 2 13B |
あり |
いいえ |
いいえ |
いいえ |
いいえ |
Meta Llama 2 70B |
あり |
いいえ |
いいえ |
いいえ |
いいえ |
さまざまなモデルのカスタマイズに使用されるトレーニングデータセットと検証データセットに適用されるデフォルトのクォータを確認するには、 AWS 全般のリファレンスの「Amazon Bedrock endpoints and quotas」の「Sum of training and validation records」クオータを参照してください。
カスタムモデル用のトレーニングデータセットと検証データセットを準備する
カスタムモデルのトレーニングデータセットと検証データセットを準備するには、.jsonl
ファイルを作成します。各行はレコードに対応するJSONオブジェクトです。作成するファイルは、選択したカスタマイズ方法とモデルの形式に沿っており、その中のレコードは、サイズ要件を満たしている必要があります。
形式は、カスタマイズ方法とモデルの入出力モダリティによって異なります。任意の方法のタブを選択し、ステップに従います。
- Fine-tuning: Text-to-text
-
モデルの場合は text-to-text、トレーニングデータセットとオプションの検証データセットを準備します。各JSONオブジェクトは、 フィールドprompt
と completion
フィールドの両方を含むサンプルです。トークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。
{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}
次に、質問応答タスクの項目の例を示します。
{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}
- Fine-tuning: Text-to-image & Image-to-embeddings
-
または image-to-embedding text-to-imageモデルの場合は、トレーニングデータセットを準備します。検証データセットはサポートされていません。各JSONオブジェクトは、image-ref
、イメージURIの Amazon S3、およびイメージのプロンプトcaption
となる可能性のある を含むサンプルです。
イメージは JPEGまたは PNG形式である必要があります。
{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}
以下にサンプル項目を示します。
{"image-ref": "s3://amzn-s3-demo-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}
Amazon Bedrock がイメージファイルにアクセスできるようにするには、 コンソールでセットアップした、または自動的にセットアップされた Amazon Bedrock モデルカスタマイズサービスロールS3 のトレーニングファイルや検証ファイルにアクセスし、出力ファイルを書き込むアクセス許可に、 と同様の IAMポリシーを追加します。トレーニングデータセットで指定する Amazon S3 パスは、ポリシーで指定するフォルダに存在する必要があります。
- Continued Pre-training: Text-to-text
-
モデルに対して継続的な事前トレーニングを実行するには、トレーニングデータセットとオプションの検証データセットを準備します text-to-text。継続的な事前トレーニングにはラベル付けされていないデータが含まれるため、各JSON行は input
フィールドのみを含むサンプルです。トークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。
{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}
以下は、トレーニングデータに含まれる可能性のある項目の例です。
{"input": "AWS stands for Amazon Web Services"}
- Fine-tuning: Single-turn messaging
-
シングルターンメッセージング形式を使用してモデルを微調整するには、トレーニングデータセットとオプションの検証データセットを準備します text-to-text。両方のデータファイルは JSONL形式である必要があります。各行は JSON 形式で完全なデータサンプルを指定します。各データサンプルは 1 行にフォーマットする必要があります (各サンプル内のすべての「\n」を削除してください)。複数のデータサンプルがある 1 行、または複数の行にデータサンプルを分割しても機能しません。
[フィールド]
ルール
-
messages
配列には 2 つのメッセージが含まれている必要があります
-
最初のメッセージにはユーザーの role
が必要です
-
最後のメッセージにはアシスタントの role
が必要です
{"system": "<system message>","messages":[{"role": "user", "content": "<user query>"},{"role": "assistant", "content": "<expected generated text>"}]}
例
{"system": "You are an helpful assistant.","messages":[{"role": "user", "content": "what is AWS"},{"role": "assistant", "content": "it's Amazon Web Services."}]}
- Fine-tuning: Multi-turn messaging
-
マルチターンメッセージング形式を使用してモデルを微調整するには、トレーニングデータセットとオプションの検証データセットを準備します text-to-text。両方のデータファイルは JSONL形式である必要があります。各行は JSON 形式で完全なデータサンプルを指定します。各データサンプルは 1 行にフォーマットする必要があります (各サンプル内のすべての「\n」を削除してください)。複数のデータサンプルがある 1 行、または複数の行にデータサンプルを分割しても機能しません。
[フィールド]
ルール
-
messages
配列には最低 2 つのメッセージが含まれている必要があります
-
最初のメッセージにはユーザーの role
が必要です
-
最後のメッセージにはアシスタントの role
が必要です
-
メッセージは、user
ロールと assistant
ロールを交互に切り替えます。
{"system": "<system message>","messages":[{"role": "user", "content": "<user query 1>"},{"role": "assistant", "content": "<expected generated text 1>"}, {"role": "user", "content": "<user query 2>"},{"role": "assistant", "content": "<expected generated text 2>"}]}
例
{"system": "system message","messages":[{"role": "user", "content": "Hello there."},{"role": "assistant", "content": "Hi, how can I help you?"},{"role": "user", "content": "what are LLMs?"},{"role": "assistant", "content": "LLM means large language model."},]}
- Distillation
-
モデル抽出ジョブのトレーニングデータセットと検証データセットを準備するには、「」を参照してくださいAmazon Bedrock モデル抽出の前提条件。
タブを選択すると、モデルのトレーニングデータセットと検証データセットの要件が表示されます。
- Amazon Titan Text Premier
-
説明 |
最大値 (ファインチューニング) |
バッチサイズが 1 の場合の入力トークンと出力トークンの合計 |
4,096 |
バッチサイズが 2、3 または 4 の場合の入力トークンと出力トークンの合計 |
該当なし |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |
トレーニングデータセットのファイルサイズ |
1 GB |
検証データセットのファイルサイズ |
100 MB |
- Amazon Titan Text G1 - Express
-
説明 |
最大値 (継続的な事前トレーニング) |
最大値 (ファインチューニング) |
バッチサイズが 1 の場合の入力トークンと出力トークンの合計 |
4,096 |
4,096 |
バッチサイズが 2、3 または 4 の場合の入力トークンと出力トークンの合計 |
2,048 |
2,048 |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |
トークンクォータ x 6 |
トレーニングデータセットのファイルサイズ |
10 GB |
1 GB |
検証データセットのファイルサイズ |
100 MB |
100 MB |
- Amazon Titan Text G1 - Lite
-
説明 |
最大値 (継続的な事前トレーニング) |
最大値 (ファインチューニング) |
バッチサイズが 1 または 2 の場合の入力トークンと出力トークンの合計 |
4,096 |
4,096 |
バッチサイズが 3、4、5 または 6 の場合の入力トークンと出力トークンの合計 |
2,048 |
2,048 |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |
トークンクォータ x 6 |
トレーニングデータセットのファイルサイズ |
10 GB |
1 GB |
検証データセットのファイルサイズ |
100 MB |
100 MB |
- Amazon Titan Image Generator G1 V1
-
説明 |
最小 (ファインチューニング) |
最大値 (ファインチューニング) |
トレーニングサンプルの文字単位のテキストプロンプトの長さ |
3 |
1,024 |
トレーニングデータセット内のレコード |
5 |
10,000 |
入力イメージサイズ |
0 |
50 MB |
入力イメージのピクセル単位の高さ |
512 |
4,096 |
入力イメージのピクセル単位の幅 |
512 |
4,096 |
入力イメージのピクセル総数 |
0 |
12,582,912 |
入力イメージのアスペクト比 |
1:4 |
4:1 |
- Amazon Titan Multimodal Embeddings G1
-
説明 |
最小 (ファインチューニング) |
最大値 (ファインチューニング) |
トレーニングサンプルの文字単位のテキストプロンプトの長さ |
0 |
2,560 |
トレーニングデータセット内のレコード |
1,000 |
500,000 |
入力イメージサイズ |
0 |
5 MB |
入力イメージのピクセル単位の高さ |
128 |
4096 |
入力イメージのピクセル単位の幅 |
128 |
4096 |
入力イメージのピクセル総数 |
0 |
12,528,912 |
入力イメージのアスペクト比 |
1:4 |
4:1 |
- Cohere Command
-
説明 |
最大値 (ファインチューニング) |
入力トークン |
4,096 |
出力トークン |
2,048 |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |
トレーニングデータセット内のレコード |
10,000 |
検証データセット内のレコード |
1,000 |
- Meta Llama 2
-
説明 |
最大値 (ファインチューニング) |
入力トークン |
4,096 |
出力トークン |
2,048 |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |
- Meta Llama 3.1
-
説明 |
最大値 (ファインチューニング) |
入力トークン |
16,000 |
出力トークン |
16,000 |
データセット内のサンプルあたりの文字数クォータ |
トークンクォータ x 6 |