データセットを準備する

モデルのカスタマイズ作業を開始する前に、最低限必要なトレーニングデータセットの準備が必要です。検証データセットがサポートされているかどうか、またトレーニングデータセットと検証データセットの形式は、以下の要因によって決まります。

カスタマイズジョブのタイプ (「微調整」または「事前トレーニングの継続」)。
データの入力と出力のモダリティ。

さまざまなモデルのデータセットとファイルの要件を確認するには、を参照してくださいモデルカスタマイズのクォータ。

ユースケースに関連するタブを選択してください。

Fine-tuning: Text-to-text

text-to-text モデルを微調整するには、複数の JSON 行を含む JSONL ファイルを作成して、トレーニングデータセットとオプションの検証データセットを準備します。JSON の各行は、とフィールドの両方を含むサンプルです。prompt completionトークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。


{"prompt": "<prompt1>", "completion": "<expected generated text>"}
{"prompt": "<prompt2>", "completion": "<expected generated text>"}
{"prompt": "<prompt3>", "completion": "<expected generated text>"}

次に、質問応答タスクの項目の例を示します。


{"prompt": "what is AWS", "completion": "it's Amazon Web Services"}

Fine-tuning: Text-to-image & Image-to-embeddings

text-to-image OR image-to-embedding モデルを微調整するには、複数の JSON 行を含む JSONL ファイルを作成してトレーニングデータセットを準備します。検証データセットはサポートされていません。各 JSON 行は、画像の Amazon S3 URI である image-ref と、画像のプロンプトとなる可能性がある caption を含むサンプルです。

画像は、PNG または JPEG 形式である必要があります。


{"image-ref": "s3://bucket/path/to/image001.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image002.png", "caption": "<prompt text>"}
{"image-ref": "s3://bucket/path/to/image003.png", "caption": "<prompt text>"}

以下にサンプル項目を示します。


{"image-ref": "s3://my-bucket/my-pets/cat.png", "caption": "an orange cat with white spots"}

Amazon Bedrock がイメージファイルにアクセスできるようにするには、設定した、トレーニングファイルや検証ファイルにアクセスし、S3 に出力ファイルを書き込む権限またはコンソールで自動的に設定された Amazon Bedrock モデルカスタマイズサービスロールの IAM ポリシーと同様の IAM ポリシーを追加します。トレーニングデータセットで指定する Amazon S3 パスは、ポリシーで指定するフォルダに存在する必要があります。

Continued Pre-training: Text-to-text

text-to-text モデルのプレトレーニングを継続して実施するには、複数の JSON 行を含む JSONL ファイルを作成して、トレーニングデータセットとオプションの検証データセットを準備します。継続的プレトレーニングにはラベルのないデータが含まれるため、各 JSON 行は 1 つのフィールドのみを含むサンプルです。inputトークン数を概算するには、1 トークンを 6 文字として計算します。形式は次のとおりです。


{"input": "<input text>"}
{"input": "<input text>"}
{"input": "<input text>"}

以下は、トレーニングデータに含まれる可能性のある項目の例です。


{"input": "AWS stands for Amazon Web Services"}

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

前提条件

（オプション) VPC をセットアップする