教師ありファインチューニング (SFT) - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

教師ありファインチューニング (SFT)

以下のセクションでは、フルランク SFT とパラメータ効率の高い SFT の両方で、教師ありファインチューニング (SFT) のプロセスの概要を説明します。

フルランク教師ありファインチューニング (SFT)

教師ありファインチューニング (SFT) は、プロンプトとレスポンスのペアのコレクションを基盤モデルに提供して、特定のタスクで事前トレーニング済みの基盤モデルのパフォーマンスを向上させるプロセスです。ラベル付けされた例は、プロンプトとレスポンスのペアとしてフォーマットされ、指示としてフレーズ化されます。この微調整プロセスにより、モデルの重みが変わります。

最適な結果を得るために特定のプロンプトとレスポンスのペアを提供する必要があるドメイン固有のデータがある場合は、SFT を使用する必要があります。

トレーニングおよび検証入力データセットは、エスクローやサービスマネージド S3 バケットではなく、顧客所有のバケットに存在する必要があることに注意してください。

データ要件

フルランク SFT および低ランクアダプター (LoRA) SFT の場合、データは Amazon Bedrock Converse オペレーション形式に従う必要があります。この形式の例と制約については、「モデルを理解する」の「ファインチューニングのためのデータの準備」を参照してください。

送信前にデータセット形式を検証するには、Amazon Bedrock サンプルリポジトリの検証スクリプトを使用することをお勧めします。この検証ツールは、JSONL ファイルが必須の形式仕様に準拠していることを確実にし、ファインチューニングジョブを送信する前に潜在的な問題を特定するのに役立ちます。

SFT で調整できる Amazon Nova パラメータは次のとおりです。

  • 設定の実行

    • name: トレーニングジョブのわかりやすい名前。これにより、 でジョブを識別できます AWS Management Console。

    • model_type: 使用する Amazon Nova モデルバリアント。使用可能なオプションは、amazon.nova-micro-v1:0:128kamazon.nova-lite-v1:0:300k、または ですamazon.nova-pro-v1:0:300k

    • model_name_or_path: トレーニングに使用するベースモデルへのパス。、nova-micro/prodnova-pro/prod、またはトレーニング後のチェックポイントの S3 パス () nova-lite/prodから使用するモデルを選択しますs3://<escrow bucket>/<job id>/outputs/checkpoints

    • replicas: 分散トレーニングに使用するコンピューティングインスタンスの数。使用可能な値は、選択したモデルによって異なります。Amazon Nova Micro は 2、4、または 8 個のレプリカをサポートしています。Amazon Nova Lite は、4、8、16、または 32 のレプリカをサポートしています。Amazon Nova Pro は、6、12、または 24 個のレプリカをサポートしています。

    • data_s3_path: トレーニングデータセットの S3 の場所。JSONL ファイルです。このファイルは、クラスターと同じ AWS アカウント およびリージョンに存在する必要があります。指定された S3 パス内のすべての S3 ロケーションは、同じアカウントとリージョンに存在する必要があります。

    • validation_data_s3_path: (オプション) 検証データセットの S3 の場所。JSONL ファイルです。このファイルは、クラスターと同じアカウントとリージョンに存在する必要があります。指定された S3 パス内のすべての S3 ロケーションは、同じアカウントとリージョンに存在する必要があります。

    • output_s3_path: マニフェストと TensorBoard ログが保存される S3 の場所。指定された S3 パス内のすべての S3 ロケーションは、同じアカウントとリージョンに存在する必要があります。

  • トレーニング設定

    • max_length: トークンの最大シーケンス長。これにより、トレーニングのコンテキストウィンドウのサイズが決まります。サポートされている最大値は、SFT で 65,536 トークンです。

      シーケンスを長くすると、メモリ要件の増加を犠牲にしてトレーニング効率が向上します。max_length パラメータをデータディストリビューションに一致させることをお勧めします。

  • トレーナーの設定

    • max_epochs: トレーニングデータセットを通過する完全なパスの数。最大値は 5 です。

      一般的に、データセットが大きいほど収束に必要なエポックは少なくなりますが、データセットが小さいほど収束に必要なエポックは少なくなります。データのサイズに基づいてエポックの数を調整することをお勧めします。

  • モデル設定

    • hidden_dropout: 非表示状態の出力を削除する確率。この値を約 0.0~0.2 ずつ増やして、小さいデータセットのオーバーフィットを減らします。有効な値は 0~1 です。

    • attention_dropout: 注意の重みが減る確率。このパラメータは一般化に役立ちます。有効な値は 0~1 です。

    • ffn_dropout: フィードフォワードネットワーク出力を削除する確率。有効な値は 0~1 です。

  • オプティマイザの設定

    • lr: 最適化中のステップサイズを制御する学習レート。有効な値は 1e-6-1e-3 です。パフォーマンスを向上させるには、1e-6-1e-4 の値をお勧めします。

    • name: オプティマイザアルゴリズム。現在は、distributed_fused_adam のみがサポートされます。

    • weight_decay: L2 正則化の強度。値が大きいほど (0.01~0.1) 正則化が増加します。

    • warmup_steps: 学習レートを徐々に増やすステップの数。これにより、トレーニングの安定性が向上します。有効な値は 1~20 です。

    • min_lr: 減衰終了時の最小学習レート。有効な値は 0~1 の範囲ですが、学習レートより小さくする必要があります。

フルランクの SFT レシピを使用したクイックスタート

以下は、HyperPod クラスターで SFT ジョブをすばやく開始するためのフルランク SFT のレシピです。このレシピでは、正しい AWS 認証情報を使用して HyperPod クラスターに接続していることも前提としています。

run: name: "my-sft-micro-job" # gets appended with a unique ID for HP jobs model_type: "amazon.nova-micro-v1:0:128k" model_name_or_path: "nova-micro/prod" replicas: 2 data_s3_path: s3:Replace with your S3 bucket name/input.jsonl validation_data_s3_path: [OPTIONAL] s3:your S3 bucket name/input.jsonl output_s3_path: [S3_PATH_TO_STORE_MANIFEST] ## training specific configs training_config: max_length: 32768 save_steps: 100000 replicas: ${recipes.run.replicas} micro_batch_size: 1 task_type: sft global_batch_size: 64 weights_only: True allow_percentage_invalid_samples: 10 exp_manager: exp_dir: null create_wandb_logger: False create_tensorboard_logger: True project: null name: null checkpoint_callback_params: monitor: step save_top_k: 10 mode: max every_n_train_steps: ${recipes.training_config.save_steps} save_last: True create_early_stopping_callback: True early_stopping_callback_params: min_delta: 0.001 mode: min monitor: "val_loss" patience: 2 trainer: log_every_n_steps: 1 max_epochs: -1 max_steps: 16 val_check_interval: 100 limit_test_batches: 0 gradient_clip_val: 1.0 num_nodes: ${recipes.training_config.replicas} model: hidden_dropout: 0.0 # Dropout probability for hidden state transformer. attention_dropout: 0.0 # Dropout probability in the attention layer. ffn_dropout: 0.0 # Dropout probability in the feed-forward layer. sequence_parallel: True optim: lr: 1e-5 name: distributed_fused_adam bucket_cap_mb: 10 contiguous_grad_buffer: False overlap_param_sync: False contiguous_param_buffer: False overlap_grad_sync: False adam_w_mode: true eps: 1e-06 weight_decay: 0.0 betas: - 0.9 - 0.999 sched: name: CosineAnnealing warmup_steps: 10 constant_steps: 0 min_lr: 1e-6 mm_cfg: llm: freeze: false image_projector: freeze: true require_newline: true video_projector: freeze: true require_newline: false peft: peft_scheme: null training_validation: loader: args: data_loader_workers: 1 prefetch_factor: 2 collator: args: force_image_at_turn_beginning: false
フルランクレシピの例

以下は、すべてのコンポーネントが適切に設定された SFT のフルランクレシピの例です。

## Run config run: name: "my-sft-run" # A descriptive name for your training job model_type: "amazon.nova-lite-v1:0:300k" # Model variant specification model_name_or_path: "nova-lite/prod" # Base model path replicas: 4 # Number of compute instances for training data_s3_path: s3:Replace with your S3 bucket name/input.jsonl validation_data_s3_path: [OPTIONAL] s3:your S3 bucket name/input.jsonl output_s3_path: [S3_PATH_TO_STORE_MANIFEST] ## Training specific configs training_config: max_length: 32768 # Maximum context window size (tokens) trainer: max_epochs: 2 # Number of training epochs model: hidden_dropout: 0.0 # Dropout for hidden states attention_dropout: 0.0 # Dropout for attention weights ffn_dropout: 0.0 # Dropout for feed-forward networks optim: lr: 1e-5 # Learning rate name: distributed_fused_adam # Optimizer algorithm adam_w_mode: true # Enable AdamW mode eps: 1e-06 # Epsilon for numerical stability weight_decay: 0.0 # L2 regularization strength betas: # Adam optimizer betas - 0.9 - 0.999 sched: warmup_steps: 10 # Learning rate warmup steps constant_steps: 0 # Steps at constant learning rate min_lr: 1e-6 # Minimum learning rate peft: peft_scheme: null # Set to null for full-parameter fine-tuning
制限

Weights & Biases および MLFlow へのメトリクスの発行はサポートされていません。

中間チェックポイントは評価のために保存されず、中間チェックポイントから再開することはできません。最後のチェックポイントのみが保存されます。

ハイパーパラメータを調整するには、「ハイパーパラメータの選択」のガイダンスに従ってください。

パラメータ効率の微調整 (PEFT)

パラメータ効率の高いファインチューニング (PEFT) では、基盤モデルを新しいタスクやドメインに適応させるために、少数の追加ウェイトを再トレーニングします。具体的には、低ランクアダプター (LoRA) PEFT は、低ランクのトレーニング可能な重みマトリックスを特定のモデルレイヤーに導入することで、基盤モデルを効率的に微調整し、モデルの品質を維持しながらトレーニング可能なパラメータの数を減らします。

LoRA PEFT アダプターは、元のモデルパラメータをそのまま保ちながら、推論中にモデルの重みを変更する軽量アダプターレイヤーを組み込むことで、ベース基盤モデルを強化します。このアプローチは、最も費用対効果の高いファインチューニング手法の 1 つでもあります。詳細については、「アダプター推論コンポーネントを使用してモデルをファインチューニングする」を参照してください。

以下のシナリオでは、LoRA PEFT を使用する必要があります。

  • 高速トレーニング手順から始めます。

  • ベースモデルのパフォーマンスは既に満足しています。この場合、LoRA PEFT の目的は、テキスト要約や言語翻訳など、複数の関連タスクにわたってその機能を強化することです。LoRA PEFT の正規化プロパティは、モデルの「ソースドメインを忘れる」リスクの過剰適合を防ぎ、軽減するのに役立ちます。これにより、モデルは引き続き、多用途で、さまざまなアプリケーションに適応できます。

  • 比較的小さなデータセットで命令ファインチューニングシナリオを実行する場合。LoRA PEFT は、広範で大規模なデータセットよりも、より小さなタスク固有のデータセットでパフォーマンスが向上します。

  • Amazon Bedrock カスタマイズデータの制限を超える大きなラベル付きデータセットがある。この場合、SageMaker AI で LoRA PEFT を使用してより良い結果を生成できます。

  • Amazon Bedrock ファインチューニングによってすでに有望な結果が得られている場合、SageMaker AI の LoRA PEFT はモデルのハイパーパラメータをさらに最適化するのに役立ちます。

LoRA PEFT で で使用できる Amazon Nova パラメータは次のとおりです。

  • 設定の実行

    • name: トレーニングジョブのわかりやすい名前。これにより、 でジョブを識別できます AWS Management Console。

    • model_type: 使用する Nova モデルバリアント。使用可能なオプションは、amazon.nova-micro-v1:0:128kamazon.nova-lite-v1:0:300k、または ですamazon.nova-pro-v1:0:300k

    • model_name_or_path: トレーニングに使用するベースモデルへのパス。使用するモデルを選択します。使用可能なオプションはnova-micro/prod、、nova-lite/prodnova-pro/prod、またはトレーニング後のチェックポイントの S3 パス () ですs3://<escrow bucket>/<job id>/outputs/checkpoints

    • replicas: 分散トレーニングに使用するコンピューティングインスタンスの数。使用できる値は、使用するモデルによって異なります。Amazon Nova Micro は 2、4、または 8 個のレプリカをサポートしています。Amazon Nova Lite は、4、8、16、または 32 のレプリカをサポートしています。Amazon Nova Pro は、6、12、または 24 個のレプリカをサポートしています。

    • output_s3_path: マニフェストと TensorBoard ログが保存される S3 の場所。指定された S3 パス内のすべての S3 ロケーションは、同じアカウントとリージョンに存在する必要があります。

  • トレーニング設定

    • max_length: トークンの最大シーケンス長。これにより、トレーニングのコンテキストウィンドウのサイズが決まります。サポートされている最大値は、LoRA PEFT で 65,536 トークンです。

      シーケンスを長くすると、メモリ要件の増加を犠牲にしてトレーニング効率が向上します。max_length パラメータをデータディストリビューションに一致させることをお勧めします。

  • トレーナーの設定

    • max_epochs: トレーニングデータセットを通過する完全なパスの数。max_steps または のいずれかを設定できますがmax_epochs、両方を設定することはお勧めしません。最大値は 5 です。

      一般的に、データセットが大きいほど収束に必要なエポックは少なくなりますが、データセットが小さいほど収束に必要なエポックは少なくなります。データのサイズに基づいてエポックの数を調整することをお勧めします。

  • モデル設定

    • hidden_dropout: 非表示状態の出力を削除する確率。この値を約 0.0~0.2 ずつ増やして、小さいデータセットのオーバーフィットを減らします。有効な値は 0~1 です。

    • attention_dropout: 注意の重みが減る確率。このパラメータは一般化に役立ちます。有効な値は 0~1 です。

    • ffn_dropout: フィードフォワードネットワーク出力を削除する確率。有効な値は 0~1 です。

  • オプティマイザの設定

    • lr: 最適化中のステップサイズを制御する学習レート。パフォーマンスを向上させるには、1e-6-1e-4 の値を使用することをお勧めします。有効な値は 0~1 です。

    • name: オプティマイザアルゴリズム。現在は、distributed_fused_adam のみがサポートされます。

    • weight_decay: L2 正則化の強度。値が大きいほど (0.01~0.1) 正則化が増加します。

    • warmup_steps: 学習率を徐々に増やすステップの数。これにより、トレーニングの安定性が向上します。有効な値は 1~20 です。

    • min_lr: 減衰終了時の最小学習レート。有効な値は 0~1 の範囲ですが、学習レートより小さくする必要があります。

  • LoRA 設定パラメータ

    • peft_scheme: 低ランク適応を有効にするloraには、 に設定します。

    • alpha: LoRA ウェイトのスケーリング係数。これは通常、 と同じ値に設定されますadapter_dim

    • adaptor_dropout: LoRA の正規化パラメータ。

PEFT レシピ

以下は、LoRA PEFT のレシピです。

## Run config run: name: "my-lora-run" # A descriptive name for your training job model_type: "amazon.nova-lite-v1:0:300k" # Model variant specification model_name_or_path: "nova-lite/prod" # Base model path replicas: 4 # Number of compute instances for training output_s3_path: [S3_PATH_TO_STORE_MANIFEST] ## Training specific configs training_config: max_length: 32768 # Maximum context window size (tokens) trainer: max_epochs: 2 # Number of training epochs model: hidden_dropout: 0.0 # Dropout for hidden states attention_dropout: 0.0 # Dropout for attention weights ffn_dropout: 0.0 # Dropout for feed-forward networks optim: lr: 1e-5 # Learning rate name: distributed_fused_adam # Optimizer algorithm adam_w_mode: true # Enable AdamW mode eps: 1e-06 # Epsilon for numerical stability weight_decay: 0.0 # L2 regularization strength betas: # Adam optimizer betas - 0.9 - 0.999 sched: warmup_steps: 10 # Learning rate warmup steps constant_steps: 0 # Steps at constant learning rate min_lr: 1e-6 # Minimum learning rate peft: peft_scheme: "lora" # Enable LoRA for parameter-efficient fine-tuning lora_tuning: loraplus_lr_ratio: 8.0 # LoRA+ learning rate scaling factor alpha: 32 # Scaling factor for LoRA weights adapter_dropout: 0.01 # Regularization for LoRA parameters
制限

PEFT には以下の制限があります。

  • 前述のトレーニング設定には、各パラメータの推奨値があります。

  • 中間チェックポイントは評価のために保存されず、中間チェックポイントから再開することはできません。最後のチェックポイントのみが保存されます。

  • MLflow ログ記録はサポートされていません。

トラブルシューティング

以下の情報は、発生する可能性のある問題の解決に役立ちます。

  • トレーニングと検証の両方の入力データセットは、エスクローやサービスマネージド S3 バケットではなく、顧客所有のバケットに存在する必要があります。

  • でリージョンが見つからないというエラーが表示された場合は AWS CLI、start-job コマンドの前にリージョンを追加してジョブを再送信します。例: AWS_REGION=us-east-1 hyperpod start-job ...Job Parameters

  • ハイパーパラメータを調整するには、「ハイパーパラメータの選択」のガイダンスに従ってください。