Optimización de políticas proximales (PPO) - Amazon Nova

Optimización de políticas proximales (PPO)

La optimización de políticas proximales (PPO) es el proceso de utilizar varios modelos de machine learning para entrenar y otorgar una puntuación a un modelo. El proceso de PPO incluye cinco componentes clave:

  • Modelo de entrenamiento de actores (o modelo de políticas): un modelo de afinación supervisado (SFT) que se afina y actualiza en cada época. Las actualizaciones se realizan mediante el muestreo de peticiones, la generación de respuestas completas y la actualización de las ponderaciones mediante un objetivo sustituto recortado. Esto limita el cambio de rentabilidad logarítmica por token, de modo que cada paso de la política es próximo al anterior, y se preserva la estabilidad del entrenamiento.

  • Modelo de generación de actores: un modelo que genera respuestas o finalizaciones de peticiones para ser juzgado por el modelo de recompensa y el modelo crítico. Las ponderaciones de este modelo se actualizan a partir del modelo de entrenamiento de actores o modelo de políticas en cada época.

  • Modelo de recompensa: un modelo con ponderaciones fijas (congeladas) que se utiliza para otorgar una puntuación al modelo de generación de actores, y proporcionar retroalimentación sobre la calidad de la respuesta.

  • Modelo crítico: un modelo con ponderaciones entrenables (descongelados) que se utiliza para otorgar una puntuación al modelo de generación de actores. Esta puntuación suele considerarse como una estimación de la recompensa total que recibe el actor al generar los tokens restantes en una secuencia.

  • Modelo de anclaje: modelo SFT con pesos congelados que se utiliza para calcular la divergencia de Kullback-Leibler (KL) entre el modelo de entrenamiento de actores y el modelo base original. El modelo de anclaje garantiza que las actualizaciones del modelo de actor no sean demasiado drásticas en comparación con el modelo base. Los cambios drásticos pueden provocar inestabilidad o una degradación del rendimiento.

Juntos, estos componentes crean un sofisticado sistema de aprendizaje por refuerzo que puede optimizar los resultados de los modelos lingüísticos en función de criterios de recompensa definidos mientras se mantiene una dinámica de entrenamiento estable.

Para obtener instrucciones detalladas sobre el uso de PPO con la personalización del modelo fr Amazon Nova, consulte la sección Optimización de políticas proximales (PPO) en la guía del usuario de SageMaker.