Optimisation directe des préférences (DPO)

Le DPO est une technique avancée qui permet d'affiner les modèles en fonction des préférences humaines plutôt que d'étiquettes fixes. Il utilise des exemples par paires où les humains ont indiqué quelle réponse est la meilleure pour une invite donnée. Le modèle apprend à générer des résultats conformes à ces préférences, ce qui contribue à améliorer la qualité des réponses, à réduire les résultats nocifs et à mieux correspondre aux valeurs humaines. Le DPO est particulièrement utile pour affiner le comportement du modèle après le SFT initial.

Le DPO à rang complet et le DPO à adaptateur bas de gamme (LoRa) sont disponibles.

Pour obtenir des instructions détaillées sur l'utilisation du DPO dans le cadre de la personnalisation des modèles Amazon Nova, consultez la section Optimisation directe des préférences (DPO) du SageMakeruser guide.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Réglage précis supervisé (Full FT, PEFT)

Optimisation des politiques proximales (PPO)