Introducción a las evaluaciones de modelos

Un modelo de lenguaje grande (LLM) es un modelo de machine learning que puede analizar y generar texto en lenguaje natural. Si quieres evaluar un LLM, SageMaker AI te ofrece las siguientes tres opciones entre las que puedes elegir:

Configure las evaluaciones manuales para el personal humana con Studio.
Evalúe su modelo con un algoritmo mediante Studio.
Evalúe automáticamente su modelo con un flujo de trabajo personalizado mediante la biblioteca de fmeval.

Puede usar un algoritmo para evaluar automáticamente su modelo fundacional o pedirle a un equipo de trabajo de personal humano que evalúe las respuestas de los modelos.

Los equipos de trabajo de personal humano pueden evaluar y comparar hasta dos modelos simultáneamente utilizando métricas que indican la preferencia por una respuesta sobre otra. El flujo de trabajo, las métricas y las instrucciones para una evaluación humana se pueden adaptar a un caso de uso particular. Los trabajadores humanos también pueden proporcionar una evaluación más refinada que una evaluación algorítmica.

También puede usar un algoritmo para evaluar su LLM utilizando puntos de referencia para puntuar rápidamente las respuestas de sus modelos en Studio. Studio proporciona un flujo de trabajo guiado para evaluar las respuestas de un JumpStart modelo mediante métricas predefinidas. Estas métricas son específicas de las tareas de IA generativa. Este flujo guiado utiliza conjuntos de datos integrados o personalizados para evaluar su LLM.

Como alternativa, puede usar la biblioteca fmeval para crear un flujo de trabajo más personalizado mediante evaluaciones automáticas que las que están disponibles en Studio. Con el Python código y la fmeval biblioteca, puedes evaluar cualquier LLM basado en texto, incluidos los modelos que se hayan creado fuera de él. JumpStart

En los temas siguientes se ofrece una visión general de las evaluaciones de los modelos básicos, un resumen de los flujos de trabajo automáticos y humanos de la evaluación del modelo básico (FMEval), cómo ejecutarlas y cómo ver un informe de análisis de los resultados. El tema sobre la evaluación automática muestra cómo configurar y ejecutar tanto una evaluación inicial como una personalizada.

Temas

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Evaluaciones de modelos

Conjuntos de datos de peticiones y dimensiones de evaluación