近似ポリシー最適化 (PPO) - Amazon Nova

近似ポリシー最適化 (PPO)

近似ポリシー最適化 (PPO) は、複数の機械学習モデルを使用してモデルをトレーニングおよびスコアリングするプロセスです。PPO プロセスには、次の 5 つの主要コンポーネントが含まれます。

  • Actor トレーニングモデル (またはポリシーモデル): エポックごとにファインチューニングおよび更新される、教師ありファインチューニング (SFT) モデル。更新は、プロンプトをサンプリングし、補完を生成し、クリップされた代理目的を使用して重みを更新することによって行われます。これにより、トークンごとのログ収益性の変更が制限され、その結果、各ポリシーステップが前のステップに近似し、トレーニングの安定性が維持されます。

  • Actor 生成モデル: Reward モデルと Critic モデルによって判断されることになるプロンプトの補完またはレスポンスを生成するモデル。このモデルの重みは、各エポックごとに Actor トレーニングモデルまたはポリシーモデルから更新されます。

  • Reward モデル: Actor 生成モデルのスコアリングに使用される、固定の (凍結された) 重みを持つモデルで、レスポンス品質に関するフィードバックを提供します。

  • Critic モデル: Actor 生成モデルのスコアリングに使用される、トレーニング可能な (凍結されていない) 重みを持つモデル。このスコアは、多くの場合、シーケンス内の残りのトークンを生成するときに Actor が受け取る合計報酬の見積もりとして表示されます。

  • Anchor モデル: Actor トレーニングモデルと元のベースモデル間の Kullback-Leibler (KL) ダイバージェンスを計算するために使用される、凍結された重みをもつ SFT モデル。Anchor モデルでは、Actor モデルの更新がベースモデルと比較してそれほど劇的にならないようになっています。大幅な変更は、不安定な状態やパフォーマンスの低下につながる可能性があります。

これらのコンポーネントを組み合わせることで、安定したトレーニングダイナミクスを維持しながら、定義された報酬基準に基づいて言語モデルの出力を最適化できる高度な強化学習システムが作成されます。

Amazon Nova モデルのカスタマイズで PPO を使用する詳細な手順については、「SageMaker ユーザーガイド」の「Proximal Policy Optimization (PPO)」セクションを参照してください。