Utilice SageMaker Clarify para evaluar modelos lingüísticos de gran tamaño

importante

Para poder utilizar las evaluaciones del modelo de SageMaker Clarify Foundation, debe actualizarse a la nueva experiencia de Studio. A partir del 30 de noviembre de 2023, la experiencia anterior de Amazon SageMaker Studio pasa a denominarse Amazon SageMaker Studio Classic. La función de evaluación básica solo se puede utilizar en la experiencia actualizada. Para obtener información sobre cómo actualizar Studio, consulteMigración desde Amazon SageMaker Studio Classic. Para obtener información sobre el uso de la aplicación Studio Classic, consulteAmazon SageMaker Studio Clásico.

Con Amazon SageMaker Clarify, puede evaluar modelos de lenguaje de gran tamaño (LLM) mediante la creación de trabajos de evaluación de modelos. Un trabajo de evaluación de modelos le permite evaluar y comparar las métricas de calidad y responsabilidad del modelo a partir de modelos básicos basados en texto. JumpStart Los trabajos de evaluación de modelos también admiten el uso de JumpStart modelos que ya se han implementado en un punto final.

Puede crear un trabajo de evaluación de modelos utilizando tres enfoques diferentes.

Cree trabajos de evaluación de modelos automatizados en Studio: los trabajos de evaluación automática de modelos le permiten evaluar rápidamente la capacidad de un modelo para realizar una tarea. Puede proporcionar su propio conjunto de datos de peticiones personalizado que haya adaptado a un caso de uso específico, o puede usar un conjunto de datos integrado disponible.
Cree trabajos de evaluación de modelos que utilicen trabajadores humanos en Studio: los trabajos de evaluación de modelos que utilizan trabajadores humanos le permiten incorporar la opinión humana al proceso de evaluación del modelo. Puede tratarse de trabajadores de su empresa o un grupo de expertos en áreas específicas de su sector.
Cree un trabajo de evaluación de modelos automatizado utilizando la fmeval biblioteca: al crear un trabajo con fmeval ella, tendrá el máximo control sobre sus trabajos de evaluación de modelos. También admite el uso de LLM externos AWS o no JumpStart basados en modelos de otros servicios.

Los trabajos de evaluación de modelos respaldan los casos de uso comunes de los LLM, como la generación de textos, la clasificación de textos, las preguntas y respuestas y el resumen de textos.

Generación abierta: producción de respuestas humanas naturales a un texto que no tiene una estructura predefinida.
Resumen de texto: generación de un resumen conciso y condensado, conservando el significado y la información clave que contiene un texto más grande.
Respuesta a preguntas: generación de una respuesta relevante y precisa a un mensaje.
Clasificación: asignar una categoría, como una etiqueta o una puntuación, al texto en función de su contenido.

En los temas siguientes, se describen las tareas de evaluación de modelos disponibles y los tipos de métricas que puede utilizar. También se describen los conjuntos de datos integrados disponibles y cómo especificar su propio conjunto de datos.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Evalúe, explique y detecte los sesgos en los modelos

Evaluaciones de modelos