Trabajos de entrenamiento de SageMaker AI
La personalización de los modelos de Amazon Nova con Amazon SageMaker Training Jobs sigue un flujo de trabajo estructurado que se ha diseñado para simplificar el proceso complejo de afinar modelos de lenguaje de gran tamaño. Este flujo de trabajo integral abarca el entrenamiento, la evaluación y la implementación de modelos para inferencia. Para obtener más información, consulte Modelos personalizados de Amazon Nova en la Guía para desarrolladores de Amazon SageMaker AI.
Con Amazon SageMaker AI, puede afinar con precisión los modelos fundacionales existentes que han sido previamente entrenados, como Amazon Nova, sin tener que entrenar sus propios modelos desde cero. En las siguientes secciones se detallan las opciones de afinación en SageMaker AI cuando se trabaja con modelos fundacionales de Amazon Nova.
Temas
Afinación de rango completo
La afinación de rango completo modifica todos los parámetros del modelo base para optimizar su rendimiento para tareas o dominios específicos. Este enfoque integral actualiza toda la arquitectura del modelo, lo que permite adaptaciones más profundas que los métodos basados en adaptadores. Para obtener más información, consulte Afinación de modelos fundacionales.
Cómo funciona la afinación de rango completo
Durante la afinación de rango completo, el modelo aprende mediante la actualización de todos sus parámetros con los datos de entrenamiento. Este proceso de afinación de rango completo:
-
Permite que el modelo desarrolle conocimientos especializados para su dominio.
-
Permite realizar cambios importantes en las representaciones subyacentes del modelo.
-
Exige más recursos computacionales en comparación con los métodos basados en adaptadores, pero puede lograr un mejor rendimiento en tareas específicas.
¿Cuándo elegir la afinación de rango completo?
Recomendamos el uso de la afinación de rango completo en las siguientes situaciones:
-
Cuando la afinación del PEFT de LoRa no alcanza los niveles de rendimiento deseados.
-
Para dominios especializados que exigen una amplia experiencia (como los campos médico, legal o técnico).
-
Cuando dispone de conjuntos de datos grandes y de alta calidad para su caso de uso.
-
Cuando los requisitos de precisión superan las consideraciones de los costos computacionales.
-
Para aplicaciones que requieren una desviación significativa del comportamiento del modelo base.
Afinación del adaptador de rango bajo
El método más eficaz y rentable para mejorar el rendimiento del modelo base es mediante la afinación precisa y eficiente de parámetros de los adaptadores de bajo rango (LoRa PEFT). El principio subyacente de LoRA PEFT es que solo se necesita actualizar una pequeña cantidad de ponderaciones adicionales para adaptarlo a nuevas tareas o dominios.
LoRa PEFT afina de forma eficiente los modelos base al introducir matrices de ponderaciones de bajo rango y entrenables en capas específicas del modelo, lo que reduce la cantidad de parámetros entrenables pero mantiene la calidad del modelo. Un adaptador LoRa PEFT mejora el modelo base al incorporar capas adaptadoras ligeras que modifican las ponderaciones del modelo durante la inferencia, al tiempo que mantienen intactos los parámetros del modelo original. Este enfoque también se considera una de las técnicas de afinación más rentables. Para obtener más información, consulte Afinación de modelos con componentes de inferencia del adaptador.
Cuándo elegir LoRa PEFT
Recomendamos utilizar LoRa PEFT en las siguientes situaciones:
-
Por lo general, debería empezar con LoRa PEFT en lugar de otros métodos de afinación, ya que es un procedimiento de entrenamiento rápido.
-
LoRA PEFT es eficaz en los casos en que el rendimiento del modelo base ya es satisfactorio. En este caso, el objetivo de LoRa PEFT es la mejora de sus capacidades en múltiples tareas relacionadas, como el resumen de textos o la traducción de idiomas. Las propiedades de regularización de LoRa PEFT también ayudan a evitar el sobreajuste y a mitigar los riesgos de que el modelo “olvide” el dominio de origen. Esto garantiza que el modelo mantenga su versatilidad y adaptabilidad a diversas aplicaciones.
-
Puede usar LoRa PEFT para escenarios de afinación de instrucciones con conjuntos de datos relativamente pequeños. LoRA PEFT funciona mejor con conjuntos de datos más pequeños y específicos para tareas en comparación con conjuntos de datos más amplios y grandes.
-
En el caso de conjuntos de datos grandes y etiquetados que superen los límites de datos de personalización de Amazon Bedrock, puede utilizar LoRa PEFT en SageMaker AI para generar mejores resultados.
-
Si ya ha obtenido resultados prometedores gracias a la afinación de Amazon Bedrock, LoRa PEFT en SageMaker AI puede ayudarle a optimizar aún más los hiperparámetros del modelo.
Optimización de preferencias directas
La optimización de preferencias directas (DPO) es un método de afinación eficiente para modelos básicos que utiliza datos de comparación emparejados para alinear los resultados del modelo con las preferencias humanas. Este enfoque proporciona la optimización directa del comportamiento del modelo en función de la valoración humana sobre cuáles son las respuestas más deseables.
Importancia de la DPO
Los modelos fundacionales entrenados con datos a gran escala suelen generar resultados que pueden ser correctos desde el punto de vista fáctico, pero que no se ajustan a las necesidades específicas de los usuarios, los valores de las organizaciones o los requisitos de seguridad. La DPO aborda esta brecha ya que permite hacer lo siguiente:
-
Afinar los modelos en función de los patrones de comportamiento deseados.
-
Reducir los resultados no deseados o las respuestas dañinas.
-
Alinear las respuestas del modelo con la voz de la marca y las pautas de comunicación.
-
Mejorar la calidad de la respuesta en función de los comentarios de los expertos del sector.
Cómo funciona la DPO
La DPO utiliza ejemplos pareados en los que los evaluadores humanos indican cuál de las dos posibles respuestas es la preferida. El modelo aprende a maximizar la probabilidad de generar respuestas preferidas mientras minimiza las no deseadas. Puede implementar la DPO al utilizar cualquiera de las siguientes técnicas:
-
DPO de rango completo: actualiza todos los parámetros del modelo con el fin de optimizar las respuestas preferidas.
-
DPO basada en LoRA: utiliza adaptadores livianos para aprender alineaciones de preferencias, lo que exige menos recursos computacionales.
Cuándo elegir la DPO
Recomendamos utilizar la DPO en las siguientes situaciones:
-
Optimización para obtener resultados subjetivos que exigen una alineación con preferencias humanas específicas.
-
Modificación del tono, el estilo o las características del contenido del modelo para que coincidan con los patrones de respuesta deseados.
-
Realización de mejoras específicas en un modelo existente en función de los comentarios de los usuarios y el análisis de errores.
-
Mantenimiento de calidad de salida uniforme en diferentes casos de uso.
-
Implementación de barreras de protección a través de los patrones de respuesta preferidos.
-
Entrenamiento con aprendizaje reforzado sin recompensas.
-
Uso exclusivo de datos de preferencias en lugar de datos calificados o etiquetados.
-
Mejoramiento del modelo en tareas de alineación matizadas, como la utilidad, la inocuidad o la honestidad.
La DPO es eficaz para la refinación iterativa del comportamiento del modelo mediante conjuntos de datos de preferencias cuidadosamente seleccionados que muestran los resultados deseados frente a los no deseados. La flexibilidad del método para admitir enfoques de rango completo y basados en LoRA permite elegir la implementación más adecuada en función de sus recursos computacionales y requisitos específicos.
Destilación
La destilación de modelos es un método que transfiere el conocimiento de modelos grandes y avanzados a modelos más pequeños y eficientes. Con los modelos Amazon Nova, un modelo instructor más grande (como Amazon Nova Pro o Amazon Nova Premier) transfiere sus capacidades a un modelo aprendiz más pequeño (como Amazon Nova Lite o Amazon Nova Micro). Esto crea un modelo personalizado que mantiene un alto rendimiento y utiliza menos recursos.
Para obtener información sobre cómo completar este proceso con SageMaker AI Training Jobs, consulte Destilación de Amazon Nova.