Optimización de preferencias directas (DPO)
La DPO es una técnica avanzada que afina los modelos en función de las preferencias humanas en lugar de hacerlo por etiquetas fijas. Utiliza ejemplos emparejados en los que los humanos han indicado qué respuesta es mejor para una petición dada. El modelo aprende a generar resultados que se ajusten a estas preferencias, lo que ayuda a mejorar la calidad de la respuesta, reducir los resultados perjudiciales y alinearse mejor con los valores humanos. La DPO es particularmente valiosa para hacer ajustes finos del comportamiento del modelo después de la SFT inicial.
Hay disponibles tanto una DPO de rango completo como una DPO con adaptador de bajo rango (LoRA).
Para obtener instrucciones detalladas sobre el uso de la DPO con la personalización del modelo de Amazon Nova, consulte la sección Optimización de preferencias directas (DPO) en la guía del usuario de SageMaker.