Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Un modelo de lenguaje grande (LLM) es un modelo de machine learning que puede analizar y generar texto en lenguaje natural. Si quieres evaluar un LLM, SageMaker AI te ofrece las siguientes tres opciones entre las que puedes elegir:
-
Configure las evaluaciones manuales para el personal humana con Studio.
-
Evalúe su modelo con un algoritmo mediante Studio.
-
Evalúe automáticamente su modelo con un flujo de trabajo personalizado mediante la biblioteca de
fmeval
.
Puede usar un algoritmo para evaluar automáticamente su modelo fundacional o pedirle a un equipo de trabajo de personal humano que evalúe las respuestas de los modelos.
Los equipos de trabajo de personal humano pueden evaluar y comparar hasta dos modelos simultáneamente utilizando métricas que indican la preferencia por una respuesta sobre otra. El flujo de trabajo, las métricas y las instrucciones para una evaluación humana se pueden adaptar a un caso de uso particular. Los trabajadores humanos también pueden proporcionar una evaluación más refinada que una evaluación algorítmica.
También puede usar un algoritmo para evaluar su LLM utilizando puntos de referencia para puntuar rápidamente las respuestas de sus modelos en Studio. Studio proporciona un flujo de trabajo guiado para evaluar las respuestas de un JumpStart modelo mediante métricas predefinidas. Estas métricas son específicas de las tareas de IA generativa. Este flujo guiado utiliza conjuntos de datos integrados o personalizados para evaluar su LLM.
Como alternativa, puede usar la biblioteca fmeval
para crear un flujo de trabajo más personalizado mediante evaluaciones automáticas que las que están disponibles en Studio. Utilización Python Con el código y la fmeval
biblioteca, puede evaluar cualquier LLM basado en texto, incluidos los modelos que se hayan creado fuera de él. JumpStart
En los temas siguientes se ofrece una visión general de las evaluaciones de los modelos básicos, un resumen de los flujos de trabajo de la evaluación automática y humana del modelo básico (FMEval), cómo ejecutarlas y cómo ver un informe de análisis de los resultados. El tema sobre la evaluación automática muestra cómo configurar y ejecutar tanto una evaluación inicial como una personalizada.
Temas