Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Optimisation des politiques proximales (PPO)
L'optimisation des politiques proximales (PPO) est le processus qui consiste à utiliser plusieurs modèles d'apprentissage automatique pour entraîner et évaluer un modèle. Le processus PPO comprend cinq éléments clés :
-
Modèle de train d'acteurs (ou modèle de politique) : un modèle de réglage fin supervisé (SFT) qui est affiné et mis à jour à chaque époque. Les mises à jour sont effectuées en échantillonnant des invites, en générant des complétions et en mettant à jour les poids à l'aide d'un objectif de substitution découpé. Cela limite l'évolution de la rentabilité logarithmique par jeton, de sorte que chaque étape de la politique est proche de la précédente, préservant ainsi la stabilité de la formation.
-
Modèle de génération d'acteurs : modèle qui génère des réponses ou des réponses rapides à évaluer selon le modèle de récompense et le modèle de critique. Les poids de ce modèle sont mis à jour à partir du train d'acteurs ou du modèle de politique à chaque époque.
-
Modèle de récompense : modèle avec des poids fixes (figés) utilisé pour évaluer le modèle de génération d'acteurs, fournissant des informations sur la qualité des réponses.
-
Modèle critique : modèle avec des poids entraînables (dégelés) qui est utilisé pour évaluer le modèle de génération d'acteurs. Ce score est souvent considéré comme une estimation de la récompense totale que l'acteur reçoit lorsqu'il génère les jetons restants dans une séquence.
-
Modèle d'ancrage : modèle SFT avec des poids figés utilisé pour calculer la divergence de Kullback-Leibler (KL) entre le modèle de train acteur et le modèle de base d'origine. Le modèle d'ancrage garantit que les mises à jour du modèle d'acteur ne sont pas trop drastiques par rapport au modèle de base. Des changements radicaux peuvent entraîner une instabilité ou une dégradation des performances.
Ensemble, ces composants créent un système d'apprentissage par renforcement sophistiqué capable d'optimiser les résultats des modèles linguistiques en fonction de critères de récompense définis tout en maintenant une dynamique d'entraînement stable.
Pour obtenir des instructions détaillées sur l'utilisation du PPO avec la personnalisation du modèle Amazon Nova, consultez la section Proximal Policy Optimization (PPO) du SageMakeruser guide.