Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Evaluación de modelos
Amazon Bedrock es compatible con los trabajos de evaluación de modelos. Los resultados de un trabajo de evaluación de modelos le permiten comparar los resultados del modelo y, a continuación, elegir el modelo que mejor se adapte a sus aplicaciones de IA generativa descendente.
Los trabajos de evaluación de modelos respaldan los casos de uso habituales de modelos lingüísticos (LLM) de gran tamaño, como la generación de textos, la clasificación de textos, la respuesta a preguntas y el resumen de textos.
Para evaluar el rendimiento de un modelo para los trabajos de evaluación automática de modelos, puede utilizar conjuntos de datos de solicitudes integrados o sus propios conjuntos de datos de solicitudes. Para los trabajos de evaluación de modelos que utilizan trabajadores, debe tener su propio conjunto de datos.
Puede optar por crear un trabajo de evaluación de modelos automático o un trabajo de evaluación de modelos en el que se use intervención humana.
Descripción general: trabajos de evaluación de modelos automáticos
Los trabajos de evaluación de modelos automáticos permiten evaluar rápidamente la capacidad de un modelo para realizar una tarea. Puede proporcionar su propio conjunto de datos de peticiones personalizado que haya adaptado a un caso de uso específico, o puede usar un conjunto de datos integrado disponible.
Descripción general: trabajos de evaluación de modelos con trabajadores humanos
Los trabajos de evaluación de modelos en los que intervienen trabajadores humanos le permiten incorporar la perspectiva humana al proceso de evaluación de modelos. Puede tratarse de trabajadores de su empresa o un grupo de expertos en áreas específicas de su sector.
En los temas siguientes, se describen las tareas de evaluación de modelos disponibles y los tipos de métricas que puede utilizar. También se describen los conjuntos de datos integrados disponibles y cómo especificar su propio conjunto de datos.
Temas
- Introducción a las evaluaciones de modelos
- Trabajar con trabajos de evaluación de modelos en Amazon Bedrock
- Tareas de evaluación de modelos
- Uso de conjuntos de datos de peticiones en trabajos de evaluación de modelos
- Creación de instrucciones correctas de trabajador
- Creación y gestión de equipos de trabajo en Amazon Bedrock
- Resultados del trabajo de evaluación de modelos
- Permisos y funciones de servicio de IAM necesarios para crear un trabajo de evaluación de modelos