直接選好最適化 (DPO)
DPO は、固定のラベルではなく人間の選好に基づいてモデルをファインチューニングする高度な手法です。この手法では、人間がどちらのレスポンスがより良いかを選んだ、対となるレスポンスのデータが使用されます。モデルは、これらの選好に沿った出力を生成することを学習し、レスポンス品質の向上、有害な出力の削減、および人間の価値観との整合性の向上に役立ちます。DPO は、初期 SFT 後のモデル動作を改善するのに特に役立ちます。
フルランク DPO と低ランクアダプター (LoRA) DPO の両方を使用できます。
Amazon Nova モデルのカスタマイズで DPO を使用する詳細な手順については、「SageMaker ユーザーガイド」の「Direct Preference Optimization (DPO)」セクションを参照してください。