Métricas para ajustar modelos de lenguaje grandes en Piloto automático - Amazon SageMaker

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Métricas para ajustar modelos de lenguaje grandes en Piloto automático

Piloto automático utiliza su conjunto de datos para ajustar directamente el modelo de lenguaje objetivo (LLM) a fin de mejorar una métrica objetivo predeterminada: la pérdida de entropía cruzada.

La pérdida de entropía cruzada es una métrica muy utilizada para evaluar la diferencia entre la distribución de probabilidad prevista y la distribución real de las palabras en los datos de entrenamiento. Al minimizar la pérdida de entropía cruzada, el modelo aprende a hacer predicciones más precisas y relevantes desde el punto de vista del contexto, especialmente en las tareas relacionadas con la generación de texto.

Tras afinar un LLM, puede evaluar la calidad del texto generado mediante una serie de puntuaciones. ROUGE Además, puede analizar la perplejidad y las pérdidas de entrenamiento y validación por entropía cruzada como parte del proceso de evaluación.

  • La pérdida de perplejidad mide hasta qué punto el modelo puede predecir la siguiente palabra de una secuencia de texto; los valores más bajos indican una mejor comprensión del idioma y el contexto.

  • Recall-Oriented Understudy for Gisting Evaluation (ROUGE)es un conjunto de métricas que se utilizan en el campo del procesamiento del lenguaje natural (PNL) y el aprendizaje automático para evaluar la calidad del texto generado por máquina, como el resumen o la generación de texto. Principalmente, evalúa las similitudes entre el texto generado y el texto de referencia basado en la verdad fundamental (escrito por humanos) de un conjunto de datos de validación. ROUGELas medidas están diseñadas para evaluar varios aspectos de la similitud del texto, incluida la precisión y la capacidad de recordar los n-gramas (secuencias contiguas de palabras) en los textos generados por el sistema y de referencia. El objetivo es evaluar el grado de precisión de un modelo al capturar la información presente en el texto de referencia.

    Existen varias variantes de ROUGE métricas, según el tipo de n-gramas utilizados y los aspectos específicos de la calidad del texto que se estén evaluando.

    La siguiente lista contiene el nombre y la descripción de ROUGE las métricas disponibles tras el ajuste de modelos lingüísticos de gran tamaño en Autopilot.

    ROUGE-1, ROUGE-2

    ROUGE-N, la ROUGE métrica principal, mide la superposición de n-gramas entre los textos generados por el sistema y los de referencia. ROUGE-Nse puede ajustar a diferentes valores n (aquí 1 o2) para evaluar en qué medida el texto generado por el sistema captura los n-gramas del texto de referencia.

    ROUGE-L

    ROUGE-L(Subsecuencia ROUGE-Longest común) calcula la subsecuencia común más larga entre el texto generado por el sistema y el texto de referencia. Esta variante tiene en cuenta el orden de las palabras además de la superposición del contenido.

    ROUGE-L-Sum

    ROUGE-L-SUM(La subsecuencia común más larga para resumir) está diseñada para la evaluación de los sistemas de resumen de textos. Se centra en medir la subsecuencia común más larga entre el resumen generado por la máquina y el resumen de referencia. ROUGE-L-SUMtiene en cuenta el orden de las palabras en el texto, lo cual es importante en las tareas de resumen de textos.