Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Optimisation directe des préférences (DPO)
Le DPO est une technique avancée qui permet d'affiner les modèles en fonction des préférences humaines plutôt que d'étiquettes fixes. Il utilise des exemples par paires où les humains ont indiqué quelle réponse est la meilleure pour une invite donnée. Le modèle apprend à générer des résultats conformes à ces préférences, ce qui contribue à améliorer la qualité des réponses, à réduire les résultats nocifs et à mieux correspondre aux valeurs humaines. Le DPO est particulièrement utile pour affiner le comportement du modèle après le SFT initial.
Le DPO à rang complet et le DPO à adaptateur bas de gamme (LoRa) sont disponibles.
Pour obtenir des instructions détaillées sur l'utilisation du DPO dans le cadre de la personnalisation des modèles Amazon Nova, consultez la section Optimisation directe des préférences (DPO) du SageMakeruser guide.