Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Algoritmos DeepRacer de entrenamiento de AWS
Optimización proximal de políticas (PPO) frente a Actor-crítico suave (SAC)
Los algoritmos SAC y PPO aprenden ambos una política y una función de valor al mismo tiempo, pero sus estrategias varían en tres aspectos notables:
PPO | SAC |
---|---|
Funciona tanto en espacios de acción discretos como continuos |
Funciona en un espacio de acción continuo |
Según la política |
Fuera de la política |
Utiliza la regularización de entropía |
Añade entropía al objetivo de maximización |
Estable versus ávido de datos
La información aprendida por las políticas de los algoritmos PPO y SAC mientras exploran un entorno se utiliza de forma diferente. PPO utiliza el aprendizaje según la política, lo que significa que aprende su función de valor a partir de las observaciones realizadas por la política actual que explora el entorno. SAC utiliza el aprendizaje fuera de la política, lo que significa que puede utilizar las observaciones realizadas por las políticas anteriores al explorar el entorno. La disyuntiva entre aprendizaje fuera de la política y según la política suele ser la estabilidad frente a la eficiencia de los datos. Los algoritmos según la política tienden a ser más estables pero ávidos de datos, mientras que los algoritmos fuera de la política tienden a ser lo contrario.
Exploración versus explotación
Exploración frente a explotación es un reto clave en RL. Un algoritmo debería explotar la información conocida de experiencias anteriores para lograr mayores recompensas acumuladas, pero también necesita explorar para obtener nuevas experiencias que puedan utilizarse para encontrar la política óptima en el futuro. A medida que una política se entrena a lo largo de múltiples iteraciones y aprende más sobre un entorno, se vuelve más segura a la hora de elegir una acción para una observación dada. Sin embargo, si la política no explora lo suficiente, es probable que se ciña a la información ya aprendida aunque no sea la óptima. El algoritmo PPO fomenta la exploración mediante la regularización de la entropía, que impide que los agentes converjan a óptimos locales. El algoritmo SAC logra un equilibrio excepcional entre exploración y explotación añadiendo entropía a su objetivo de maximización.
Entropía
En este contexto, la “entropía” es una medida de la incertidumbre de la política, por lo que puede interpretarse como una medida del grado de confianza de una política a la hora de elegir una acción para un estado determinado. Una política con baja entropía tiene mucha confianza a la hora de elegir una acción, mientras que una política con alta entropía no está segura de qué acción elegir.
La estrategia de maximización de entropía del algoritmo SAC tiene ventajas similares al uso que hace el algoritmo PPO de la entropía como regularizador. Al igual que el PPO, fomenta una exploración más amplia y evita la convergencia a un mal óptimo local al incentivar al agente a elegir una acción con mayor entropía. A diferencia de la regulación de entropía, la maximización de entropía tiene una ventaja única. Tiende a renunciar a las políticas que eligen un comportamiento poco prometedor, que es otra razón por la que el algoritmo SAC tiende a ser más eficiente en cuanto a datos que el PPO.
Ajuste la cantidad de entropía en SAC utilizando el hiperparámetro alfa de SAC. El valor máximo de entropía de alfa de SAC (1,0) favorece la exploración. El valor mínimo (0,0) recupera el objetivo RL estándar y neutraliza la bonificación de entropía que incentiva la exploración. Un buen valor de alfa de SAC para empezar a experimentar es 0,5. Ajústelo en consecuencia a medida que itere en sus modelos.
Pruebe ambos algoritmos, PPO y SAC, experimente con sus hiperparámetros y explore con ellos en diferentes espacios de acción.