直接選好最適化 (DPO)

直接設定最適化 (DPO) は、ペア比較データを使用してモデル出力を人間の好みに合わせる基盤モデルの効率的なファインチューニング方法です。このアプローチにより、どのレスポンスがより望ましいかについての人間のフィードバックに基づいて、モデルの動作を直接最適化できます。

フルランク DPO と低ランクアダプター (LoRA) DPO の両方を使用できます。

データ形式の要件

フルランクと LoRA DPO の両方で、トレーニングデータ形式の要件は SFT に似ています。ただし、DPO の場合、最終ターンには設定ペアが必要です。DPO データ形式の例を次に示します。


// N-1 turns same as SFT format
{
    "role": "assistant",
    "candidates": [
        {
            "content": [
                {
                    "text": "..."
                } // content list can contain multiple 'text' objects
            ],
            "preferenceLabel": "preferred"
        },
        {
            "content": [
                {
                    "text": "..."
                } // content list can contain multiple 'text' objects
            ],
            "preferenceLabel": "non-preferred"
        }
    ]
}

別の完全な DPO テキストサンプルは次のとおりです。


{
    "system": [ 
        {
            "text": "..." 
        } 
    ],
    "messages":[
        {
            "role": "user",
            "content": [
                {
                    "text": "..."
                }
            ]
        },
        {
            "role": "assistant",
            "content": [
                {
                    "text": "..."
                }
            ]
        }, 
        {
            "role": "user",
            "content": [
                {
                    "text": "..."
                }
            ]
        },
        {
            "role": "assistant",
            "candidates": [
                {
                    "content": [
                        {
                            "text": "..."
                        }
                    ],
                    "preferenceLabel": "preferred"
                },
                {
                    "content": [
                        {
                            "text": "..."
                        }
                    ],
                    "preferenceLabel": "non-preferred"
                }
            ]
        }
    ],
}

完全な DPO イメージサンプルは次のとおりです。


{
    "system": [ 
        {
            "text": "..." 
        } 
    ],
    "messages":[
        {
            "role": "user",
            "content": [
                {
                    "text": "..."
                },
                {
                    "text": "..."
                },
                {
                    "image": {
                        "format": "jpeg",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.jpg",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                } // "content" can have multiple "text" and "image" objects. 
                 // max image count is 10
            ]
        },
        {
            "role": "assistant",
            "content": [
                {
                    "text": "..."
                }
            ]
        },
        {
            "role": "user",
            "content": [
                {
                    "text": "..."
                },
                {
                    "text": "..."
                },
                {
                    "image": {
                        "format": "jpeg",
                        "source": {
                            "s3Location": {
                                "uri": "s3://your-bucket/your-path/your-image.jpg",
                                "bucketOwner": "your-aws-account-id"
                            }
                        }
                    }
                } // "content" can have multiple "text" and "image" objects. 
                 // max image count is 10
            ]
        },           
        {
            "role": "assistant",
            "candidates": [
                {
                    "content": [
                        {
                            "text": "..."
                        }
                    ],
                    "preferenceLabel": "preferred"
                },
                {
                    "content": [
                        {
                            "text": "..."
                        }
                    ],
                    "preferenceLabel": "non-preferred"
                }
            ]
        }
    ],
}

入力データセットにはその他の制約が適用されます。詳細については、「データセットの制約」を参照してください。効果的なトレーニングのために、最低 1,000 個の設定ペアを含めることをお勧めします。高品質のプリファレンスデータにより、より効率的な結果が得られます。

以下のシナリオでは、DPO を使用することをお勧めします。

特定の人間の好みに合わせて調整する必要がある主観的な出力になるよう最適化する場合。
希望するレスポンスパターンに合わせてモデルのトーン、スタイル、またはコンテンツ特性を調整する場合。
ユーザーのフィードバックとエラー分析に基づいて、既存のモデルをターゲットを絞って改善する場合。
さまざまなユースケースで一貫した出力品質を維持する場合。
望ましいレスポンスパターンによる安全ガードレールを実装する場合。
無報酬の強化学習でトレーニングする場合。
グレード付きデータやラベル付きデータではなく、プリファレンスデータのみを使用する場合。
有益性、無害性、正直性など、微妙な調整タスクでモデルを改善する場合。

フルランク DPO

フルランク DPO で使用できる Amazon Nova パラメータは次のとおりです。

設定の実行
- name: トレーニングジョブのわかりやすい名前。これにより、でジョブを識別できます AWS Management Console。
- model_type: 使用する Nova モデルバリアント。使用可能なオプションは、amazon.nova-micro-v1:0:128k、amazon.nova-lite-v1:0:300k、またはですamazon.nova-pro-v1:0:300k。
- model_name_or_path: ベースモデルへのパス。、nova-micro/prod、nova-pro/prod、またはトレーニング後のチェックポイントの S3 パス () nova-lite/prodから使用するモデルを選択しますs3://<escrow bucket>/<job id>/outputs/checkpoints。
- replicas: 分散トレーニングに使用するコンピューティングインスタンスの数。使用可能な値は、選択したモデルによって異なります。Amazon Nova Micro は 2、4、または 8 個のレプリカをサポートしています。Amazon Nova Lite は、4、8、16、または 32 のレプリカをサポートしています。Amazon Nova Pro は、6、12、または 24 のレプリカをサポートしています。
- data_s3_path: トレーニングデータセットの S3 の場所。JSONL ファイルです。このファイルは、クラスターと同じアカウントとリージョンに存在する必要があります。提供されるすべての S3 ロケーションは、同じアカウントとリージョンにある必要があります。
- validation_data_s3_path: 検証データセットの S3 の場所。JSONL ファイルです。このファイルは、クラスターと同じ AWS アカウントおよびリージョンに存在する必要があります。提供されるすべての S3 ロケーションは、同じアカウントとリージョンにある必要があります。
トレーニング設定
- max_length: トークンの最大シーケンス長。これにより、トレーニングのコンテキストウィンドウのサイズが決まります。サポートされている最大値は、DPO で 32,768 トークンです。
  
  シーケンスを長くすると、メモリ要件の増加を犠牲にしてトレーニング効率が向上します。max_length パラメータをデータディストリビューションに一致させることをお勧めします。
トレーナーの設定
- max_epochs: トレーニングデータセットを通過する完全なパスの数。最大値は 5 です。
  
  一般的に、大規模なデータセットでは収束に必要なエポックは少なく、小規模なデータセットでは収束に必要なエポックは多くなります。データのサイズに基づいてエポックの数を調整することをお勧めします。
モデル設定
- hidden_dropout: 非表示状態の出力を削除する確率。この値を約 0.0～0.2 ずつ増やして、小さいデータセットのオーバーフィットを減らします。有効な値は 0～1 です。
- attention_dropout: 注意の重みが減る確率。このパラメータは一般化に役立ちます。有効な値は 0～1 です。
- ffn_dropout: フィードフォワードネットワーク出力を削除する確率。有効な値は 0～1 です。
オプティマイザの設定
- lr: 最適化中のステップサイズを制御する学習レート。パフォーマンスを向上させるには、1e-6-1e-4 の値を使用することをお勧めします。有効な値は 0～1 です。
- name: オプティマイザアルゴリズム。現在は、distributed_fused_adam のみがサポートされます。
- weight_decay: L2 正則化の強度。値が大きいほど (0.01～0.1) 正則化が増加します。
- warmup_steps: 学習率を徐々に増やすステップの数。これにより、トレーニングの安定性が向上します。有効な値は 1～20 です。
- min_lr: 減衰終了時の最小学習レート。有効な値は 0～1 の範囲ですが、学習レートより小さくする必要があります。
DPO 設定
- beta: モデルがトレーニングデータまたは元のモデルにどの程度適合するかを決定します。有効な値は 0.001～0.5 です。
  
  より大きな値 (0.5 など) を指定して、新しい設定をよりゆっくりと学習しながら、より多くの参照モデルの動作を保持します。より小さい値 (0.01～0.05 など) を指定すると、参照モデルの動作から逸脱するリスクがある新しい設定をより迅速に学習できます。

フルランク DPO レシピ

以下は、DPO のフルランクレシピです。


## Run config
run:
  name: "my-dpo-micro-job"             # A descriptive name for your training job
  model_type: "amazon.nova-micro-v1:0:128k"  # Model variant specification, do not change
  model_name_or_path: "nova-micro/prod"      # Base model path, do not change
  replicas: 2                     # Number of compute instances for training, allowed values are 2, 4, 8
  data_s3_path: s3:Replace with your S3 bucket name/input.jsonl
  validation_data_s3_path: [OPTIONAL] s3:your S3 bucket name/input.jsonl
  output_s3_path: [S3_PATH_TO_STORE_MANIFEST]

## Training specific configs
training_config:
  max_length: 32768               # Maximum context window size (tokens).
  global_batch_size: 64           # Global batch size, allowed values are 16, 32, 64.

  trainer:
    max_epochs: 2                # Number of training epochs

  model:
    hidden_dropout: 0.0          # Dropout for hidden states, must be between 0.0 and 1.0
    attention_dropout: 0.0       # Dropout for attention weights, must be between 0.0 and 1.0
    ffn_dropout: 0.0             # Dropout for feed-forward networks, must be between 0.0 and 1.0

    optim:
      lr: 1e-5                 # Learning rate
      name: distributed_fused_adam  # Optimizer algorithm, do not change
      adam_w_mode: true        # Enable AdamW mode
      eps: 1e-06               # Epsilon for numerical stability
      weight_decay: 0.0        # L2 regularization strength, must be between 0.0 and 1.0
      betas:                   # Adam optimizer betas, must be between 0.0 and 1.0
        - 0.9
        - 0.999
      sched:
        warmup_steps: 10     # Learning rate warmup steps
        constant_steps: 0    # Steps at constant learning rate
        min_lr: 1e-6         # Minimum learning rate, must be lower than lr

    dpo_cfg:
        beta: 0.1               # Strength of preference enforcement. Limits: [0.001, 0.5]

    peft:
        peft_scheme: null        # Disable LoRA, trigger full rank fine tuning

低ランクアダプター DPO

低ランクアダプター DPO で使用できる Amazon Nova パラメータは次のとおりです。

設定の実行
- name: トレーニングジョブのわかりやすい名前。これにより、でジョブを識別できます AWS Management Console。
- model_type: 使用する Nova モデルバリアント。使用可能なオプションは、amazon.nova-micro-v1:0:128k、amazon.nova-lite-v1:0:300k、またはですamazon.nova-pro-v1:0:300k。
- model_name_or_path: ベースモデルへのパス。、nova-micro/prod、nova-pro/prod、またはトレーニング後のチェックポイントの S3 パス () nova-lite/prodから使用するモデルを選択しますs3://<escrow bucket>/<job id>/outputs/checkpoints。
- replicas: 分散トレーニングに使用するコンピューティングインスタンスの数。使用可能な値は、選択したモデルによって異なります。Amazon Nova Micro は 2、4、または 8 個のレプリカをサポートしています。Amazon Nova Lite は、4、8、16、または 32 のレプリカをサポートしています。Amazon Nova Pro は、6、12、または 24 のレプリカをサポートしています。
トレーニング設定
- max_length: トークンの最大シーケンス長。これにより、トレーニングのコンテキストウィンドウのサイズが決まります。サポートされている最大値は、DPO で 32,768 トークンです。
  
  シーケンスを長くすると、メモリ要件の増加を犠牲にしてトレーニング効率が向上します。max_length パラメータをデータディストリビューションに一致させることをお勧めします。
トレーナーの設定
- max_epochs: トレーニングデータセットを通過する完全なパスの数。最大値は 5 です。
  
  一般的に、大規模なデータセットでは収束に必要なエポックは少なく、小規模なデータセットでは収束に必要なエポックは多くなります。データのサイズに基づいてエポックの数を調整することをお勧めします。
モデル設定
- hidden_dropout: 非表示状態の出力を削除する確率。この値を約 0.0～0.2 ずつ増やして、小さいデータセットのオーバーフィットを減らします。有効な値は 0～1 です。
- attention_dropout: 注意の重みが減る確率。このパラメータは一般化に役立ちます。有効な値は 0～1 です。
- ffn_dropout: フィードフォワードネットワーク出力を削除する確率。有効な値は 0～1 です。
オプティマイザの設定
- lr: 最適化中のステップサイズを制御する学習レート。パフォーマンスを向上させるには、1e-6-1e-4 の値を使用することをお勧めします。有効な値は 0～1 です。
- name: オプティマイザアルゴリズム。現在は、distributed_fused_adam のみがサポートされます。
- weight_decay: L2 正則化の強度。値が大きいほど (0.01～0.1) 正則化が増加します。
- warmup_steps: 学習率を徐々に増やすステップの数。これにより、トレーニングの安定性が向上します。有効な値は 1～20 です。
- min_lr: 減衰終了時の最小学習レート。有効な値は 0～1 の範囲ですが、学習レートより小さくする必要があります。
DPO 設定
- beta: モデルがトレーニングデータまたは元のモデルにどの程度適合するかを決定します。有効な値は 0.001～0.5 です。
  
  より大きな値 (0.5 など) を指定して、新しい設定をよりゆっくりと学習しながら、より多くの参照モデルの動作を保持します。より小さい値 (0.01～0.05 など) を指定すると、参照モデルの動作から逸脱するリスクがある新しい設定をより迅速に学習できます。
LoRA 設定パラメータ
- peft_scheme: loraに設定すると、低ランク適応が有効になり、より効率的で小さな出力モデルが生成されます。これらの LoRA 固有のプロパティも利用できます。
  - alpha: LoRA ウェイトのスケーリング係数。これは通常、と同じ値に設定されますadapter_dim。
  - adapter_dropout: LoRA パラメータの正規化パラメータ。

LoRA DPO レシピ

以下は、LoRA DPO のレシピです。


## Run config
run:
    name: "my-lora-run"             # A descriptive name for your training job
    model_type: "amazon.nova-lite-v1:0:300k"  # Model variant specification, do not change
    model_name_or_path: "nova-lite/prod"      # Base model path, do not change
    replicas: 4                     # Number of compute instances for training. All supported values: {4, 8, 16}
    data_s3_path: s3:Replace with your S3 bucket name/input.jsonl
    validation_data_s3_path: [OPTIONAL] s3:your S3 bucket name/input.jsonl
    output_s3_path: [S3_PATH_TO_STORE_MANIFEST]

## Training specific configs
training_config:
    max_length: 16384               # Maximum context window size (tokens). Should be between [1024, 32768] and multiple of 1024.
                                    # Note: Image dataset for DPO has a limit on 20k samples and 16384 max_length
    global_batch_size: 64           # Total samples per step. Limits: {16, 32, 64, 128, 256}

    trainer:
        max_epochs: 2               # Number of training epochs

    model:
        hidden_dropout: 0.0          # Dropout for hidden states. Limits: [0.0, 1.0]
        attention_dropout: 0.0       # Dropout for attention weights. Limits: [0.0, 1.0]
        ffn_dropout: 0.0             # Dropout for feed-forward networks. Limits: [0.0, 1.0]

        optim:
            lr: 1e-5                 # Learning rate
            name: distributed_fused_adam  # Optimizer algorithm, do not change
            adam_w_mode: true        # Enable AdamW mode
            eps: 1e-08               # Epsilon for numerical stability
            weight_decay: 0.01       # L2 regularization strength
            betas:                   # Adam optimizer betas. Limits: [0.0, 1.0]
                - 0.9
                - 0.999
            sched:
                warmup_steps: 10     # Learning rate warmup steps
                constant_steps: 0    # Steps at constant learning rate
                min_lr: 1e-6         # Minimum learning rate

        dpo_cfg:
            beta: 0.01               # Strength of preference enforcement. Limits: [0.001, 0.5]

        peft:
            peft_scheme: "lora"      # Enable LoRA for parameter-efficient fine-tuning
            lora_tuning:
                loraplus_lr_ratio: 20.0  # LoRA+ learning rate scaling factor. Limits: [0.0, 100.0]
                alpha: 64            # Scaling factor for LoRA weights. [32, 64, 96, 128, 160, 192]
                adapter_dropout: 0.01  # Regularization for LoRA parameters. Limits: [0.0, 1.0]

制限

DPO には以下の制限があります。

中間チェックポイントは評価のために保存されず、中間チェックポイントから再開することはできません。最後のチェックポイントのみが保存されます。
MLflow ログ記録はサポートされていません。
ハイパーパラメータを調整するには、「ハイパーパラメータの選択」のガイダンスに従います。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

教師ありファインチューニング (SFT)

近似ポリシー最適化 (PPO)