Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Introducción a las evaluaciones de modelos

Modo de enfoque
Introducción a las evaluaciones de modelos - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Un modelo de lenguaje grande (LLM) es un modelo de machine learning que puede analizar y generar texto en lenguaje natural. Si quieres evaluar un LLM, SageMaker AI te ofrece las siguientes tres opciones entre las que puedes elegir:

  • Configure las evaluaciones manuales para el personal humana con Studio.

  • Evalúe su modelo con un algoritmo mediante Studio.

  • Evalúe automáticamente su modelo con un flujo de trabajo personalizado mediante la biblioteca de fmeval.

Puede usar un algoritmo para evaluar automáticamente su modelo fundacional o pedirle a un equipo de trabajo de personal humano que evalúe las respuestas de los modelos.

Los equipos de trabajo de personal humano pueden evaluar y comparar hasta dos modelos simultáneamente utilizando métricas que indican la preferencia por una respuesta sobre otra. El flujo de trabajo, las métricas y las instrucciones para una evaluación humana se pueden adaptar a un caso de uso particular. Los trabajadores humanos también pueden proporcionar una evaluación más refinada que una evaluación algorítmica.

También puede usar un algoritmo para evaluar su LLM utilizando puntos de referencia para puntuar rápidamente las respuestas de sus modelos en Studio. Studio proporciona un flujo de trabajo guiado para evaluar las respuestas de un JumpStart modelo mediante métricas predefinidas. Estas métricas son específicas de las tareas de IA generativa. Este flujo guiado utiliza conjuntos de datos integrados o personalizados para evaluar su LLM.

Como alternativa, puede usar la biblioteca fmeval para crear un flujo de trabajo más personalizado mediante evaluaciones automáticas que las que están disponibles en Studio. Utilización Python Con el código y la fmeval biblioteca, puede evaluar cualquier LLM basado en texto, incluidos los modelos que se hayan creado fuera de él. JumpStart

En los temas siguientes se ofrece una visión general de las evaluaciones de los modelos básicos, un resumen de los flujos de trabajo de la evaluación automática y humana del modelo básico (FMEval), cómo ejecutarlas y cómo ver un informe de análisis de los resultados. El tema sobre la evaluación automática muestra cómo configurar y ejecutar tanto una evaluación inicial como una personalizada.

Temas

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.