データセットファイルタイプと入力データ形式 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

データセットファイルタイプと入力データ形式

命令ベースの微調整では、ラベル付きデータセットを使用して、特定の自然言語処理 (NLP) タスクで事前トレーニング済みの LLMs のパフォーマンスを向上させます。ラベル付きの例は、プロンプトとレスポンスのペアとしてフォーマットされ、指示としてフレーズ化されます。

サポートされているデータセットファイルタイプについては、「」を参照してくださいサポートされているデータセットファイルタイプ

入力データ形式の詳細については、「」を参照してください命令ベースの微調整の入力データ形式

サポートされているデータセットファイルタイプ

Autopilot は、CSV ファイル (デフォルト) または Parquet ファイルとしてフォーマットされた命令ベースの微調整データセットをサポートします。

  • CSV (カンマ区切り値) は、人間が読めるプレーンテキストにデータを保存する行ベースのファイル形式です。これは、さまざまなアプリケーションでサポートされているため、データ交換によく使用される選択肢です。

  • Parquet は、データが CSV などの人間が読めるファイル形式よりも効率的に保存および処理される、バイナリの列ベースのファイル形式です。これにより、ビッグデータの問題に対するより良いオプションになります。

注記

データセットは複数のファイルで構成されている場合があり、それぞれが特定のテンプレートに従う必要があります。入力データをフォーマットする方法については、「」を参照してください命令ベースの微調整の入力データ形式

命令ベースの微調整の入力データ形式

データセット内の各ファイルは、次の形式に従う必要があります。

  • データセットには、カンマで区切られた 2 つの名前付き列、 inputおよび が含まれている必要がありますoutput。Autopilot では、追加の列は許可されません。

  • input 列にはプロンプトが含まれ、対応する列には期待される回答outputが含まれます。input と はどちらも文字列形式outputです。

次の例は、Autopilot での命令ベースの微調整の入力データ形式を示しています。

input,output "<prompt text>","<expected generated text>"
注記

モデルの最適な学習とパフォーマンスを確保するために、1000 行以上のデータセットを使用することをお勧めします。

さらに、Autopilot は、データセット内の行数と、使用するモデルのタイプに基づいてコンテキストの長さの上限を設定します。

  • データセット内の行数の制限は、複数のファイルを含むデータセット内のすべてのファイルにわたる行の累積数に適用されます。2 つのチャネルタイプが定義されている場合 (1 つはトレーニング用、もう 1 つは検証用)、制限は両方のチャネル内のすべてのデータセットの合計行数に適用されます。行数がしきい値を超えると、ジョブは検証エラーで失敗します。

  • データセット内の行の入力または出力の長さが言語モデルのコンテキストで設定された制限を超えると、自動的に切り捨てられます。データセット内の行の 60% 以上が切り捨てられた場合、入力または出力に関係なく、Autopilot は検証エラーでジョブを失敗させます。

次の表は、各モデルに対するこれらの制限を示しています。

JumpStart モデル ID BaseModelName API リクエストの 行の制限 コンテキストの長さの制限
huggingface-textgeneration-dolly-v2-3b-bf16 Dolly3B 10,000 行 1024 トークン
huggingface-textgeneration-dolly-v2-7b-bf16 Dolly7B 10,000 行 1024 トークン
huggingface-textgeneration-dolly-v2-12b-bf16 Dolly12B 10,000 行 1024 トークン
huggingface-llm-falcon-7b-bf16 Falcon7B 1,000 行 1024 トークン
huggingface-llm-falcon-7b-instruct-bf16 Falcon7BInstruct 1,000 行 1024 トークン
huggingface-llm-falcon-40b-bf16 Falcon40B 10,000 行 1024 トークン
huggingface-llm-falcon-40b-instruct-bf16 Falcon40BInstruct 10,000 行 1024 トークン
huggingface-text2text-flan-t5-large FlanT5L 10,000 行 1024 トークン
huggingface-text2text-flan-t5-xl FlanT5XL 10,000 行 1024 トークン
huggingface-text2text-flan-t5-xxll FlanT5XXL 10,000 行 1024 トークン
meta-textgeneration-llama-2-7b Llama2-7B 10,000 行 2048 トークン
meta-textgeneration-llama-2-7b-f Llama2-7BChat 10,000 行 2048 トークン
meta-textgeneration-llama-2-13b Llama2-13B 7,000 行 2048 トークン
meta-textgeneration-llama-2-13b-f Llama2-13BChat 7,000 行 2048 トークン
huggingface-llm-mistral-7b Mistral7B 10,000 行 2048 トークン
huggingface-llm-mistral-7b-instruct Mistral7BInstruct 10,000 行 2048 トークン
huggingface-textgeneration1-mpt-7b-bf16 MPT7B 10,000 行 1024 トークン
huggingface-textgeneration1-mpt-7b-instruct-bf16 MPT7BInstruct 10,000 行 1024 トークン