Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Evalúe el rendimiento de los recursos de Amazon Bedrock

Modo de enfoque
Evalúe el rendimiento de los recursos de Amazon Bedrock - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

nota

Los trabajos de evaluación de modelos que utilizan un modelo de juez y los trabajos de evaluación de Amazon Bedrock Knowledge Bases están en versión preliminar.

Utilice las evaluaciones de Amazon Bedrock para evaluar el rendimiento y la eficacia de los modelos y las bases de conocimiento de Amazon Bedrock. Amazon Bedrock puede calcular métricas de rendimiento, como la solidez semántica de un modelo y la exactitud de una base de conocimientos a la hora de recuperar información y generar respuestas. Para las evaluaciones de modelos, también puede recurrir a un equipo de trabajadores humanos para que califiquen y aporten su opinión para la evaluación.

Las evaluaciones automáticas, incluidas las que utilizan modelos de lenguajes de gran tamaño (LLMs), producen puntuaciones y métricas calculadas que ayudan a evaluar la eficacia de un modelo y una base de conocimientos. Las evaluaciones realizadas por personas las realiza un equipo de personas que proporcionan sus calificaciones y preferencias en relación con determinadas métricas.

Descripción general: trabajos de evaluación de modelos automáticos

Los trabajos de evaluación de modelos automáticos permiten evaluar rápidamente la capacidad de un modelo para realizar una tarea. Puede proporcionar su propio conjunto de datos de peticiones personalizado que haya adaptado a un caso de uso específico, o puede usar un conjunto de datos integrado disponible.

Descripción general: trabajos de evaluación de modelos con trabajadores humanos

Los trabajos de evaluación de modelos en los que intervienen trabajadores humanos le permiten incorporar la perspectiva humana al proceso de evaluación de modelos. Puede tratarse de trabajadores de su empresa o un grupo de expertos en áreas específicas de su sector.

Descripción general: Modele los trabajos de evaluación que utilizan un modelo de juez

Los trabajos de evaluación de modelos que utilizan un modelo de juez le permiten evaluar rápidamente las respuestas de un modelo mediante el uso de un segundoLLM. El segundo LLM puntúa la respuesta y proporciona una explicación para cada respuesta.

Descripción general de las evaluaciones de la base de conocimientos que utilizan modelos de lenguaje extensos (LLMs)

LLMlas evaluaciones basadas calculan las métricas de rendimiento de la base de conocimientos. Las métricas revelan si una base de conocimientos es capaz de recuperar información muy relevante y generar respuestas útiles y adecuadas. Usted proporciona un conjunto de datos que contiene las solicitudes o consultas de los usuarios para evaluar la forma en que una base de conocimientos recupera la información y genera respuestas para esas consultas. El conjunto de datos también debe incluir la «verdad fundamental» o los textos y respuestas esperados recuperados para las consultas, de modo que la evaluación pueda comprobar si la base de conocimientos está alineada con lo esperado.

Utilice el siguiente tema para obtener más información sobre cómo crear su primer trabajo de evaluación de modelos.

Para crear un trabajo de evaluación de modelos, debe tener acceso como mínimo a un modelo de Amazon Bedrock. Los trabajos de evaluación de modelos admiten el uso de los siguientes tipos de modelos:

  • Modelos fundacionales

  • Modelos de Amazon Bedrock Marketplace

  • Modelos de bases personalizados

  • Modelos de cimentación importados

  • Enrutadores rápidos

  • Modelos que ha adquirido Provisioned Throughput

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.