Evaluación del rendimiento de los orígenes de RAG mediante las evaluaciones de Amazon Bedrock

Puede utilizar métricas calculadas para evaluar la eficacia con la que un sistema de generación aumentada por recuperación (RAG) recupera la información relevante de sus orígenes de datos y la eficacia de las respuestas generadas al responder a las preguntas. Los resultados de una evaluación de RAG le permiten comparar diferentes bases de conocimiento de Amazon Bedrock y otros orígenes de RAG y, a continuación, elegir la base de conocimiento o el mejor sistema de RAG para su aplicación.

Puede configurar dos tipos diferentes de trabajos de evaluación de RAG.

Solo recuperación: en un trabajo de evaluación de RAG de solo recuperación, el informe se basa en los datos recuperados de su origen de RAG. Puede evaluar una base de conocimiento de Amazon Bedrock o puede traer sus propios datos de respuesta de inferencia de un origen de RAG externo.
Recuperación y generación: en un trabajo de evaluación de RAG de recuperación y generación, el informe se basa en los datos recuperados de su base de conocimiento y en los resúmenes generados por el modelo generador de respuestas. Puede evaluar una base de conocimiento de Amazon Bedrock y un modelo generador de respuestas, o puede traer sus propios datos de respuesta de inferencia de un origen de RAG externo.

Modelos compatibles

Para crear un trabajo de evaluación de RAG, debe tener acceso como mínimo a uno de los modelos evaluadores de las siguientes listas. Para crear un trabajo de recuperación y generación que utilice un modelo de Amazon Bedrock para generar las respuestas, también necesita acceder al menos a uno de los modelos generadores de respuestas de la lista.

Para obtener más información sobre cómo acceder a los modelos y la disponibilidad de las regiones, consulte Acceso a los modelos fundacionales de Amazon Bedrock.

Modelos evaluadores compatibles (métricas integradas)

Amazon Nova Pro – amazon.nova-pro-v1:0
Anthropic Claude 3.5 Sonnet v1 – anthropic.claude-3-5-sonnet-20240620-v1:0
Anthropic Claude 3.5 Sonnet v2 – anthropic.claude-3-5-sonnet-20241022-v2:0
Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0
Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0
Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0
Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0
Mistral Large – mistral.mistral-large-2402-v1:0

Los perfiles de inferencia entre regiones son compatibles con los modelos de la lista. Para obtener más información, consulte Perfiles de inferencia entre regiones admitidos.

Modelos evaluadores compatibles (métricas personalizadas)

Mistral Large 24.02 – mistral.mistral-large-2402-v1:0
Mistral Large 24.07 – mistral.mistral-large-2407-v1:0
Anthropic Claude 3.5 Sonnet v1 – anthropic.claude-3-5-sonnet-20240620-v1:0
Anthropic Claude 3.5 Sonnet v2 – anthropic.claude-3-5-sonnet-20241022-v2:0
Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0
Anthropic Claude 3 Haiku 3 – anthropic.claude-3-haiku-20240307-v1:0
Anthropic Claude 3 Haiku 3.5 – anthropic.claude-3-5-haiku-20241022-v1:0
Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0
Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0
Amazon Nova Pro – amazon.nova-pro-v1:0

Los perfiles de inferencia entre regiones son compatibles con los modelos de la lista. Para obtener más información, consulte Perfiles de inferencia entre regiones admitidos.

Modelos generadores de respuestas compatibles

Puede utilizar los siguientes tipos de modelos en Amazon Bedrock como el modelo generador de respuestas en un trabajo de evaluación. También puede incorporar sus propios datos de respuesta de inferencia de modelos que no son de Amazon Bedrock.

Modelos fundacionales: Información del modelo fundacional de Amazon Bedrock
Modelos de Amazon Bedrock Marketplace: Amazon Bedrock Marketplace
Modelos fundacionales personalizados: Personalización del modelo para mejorar su rendimiento según su caso de uso
Modelos fundacionales importados: Uso de la importación de modelos personalizados para importar un modelo de código abierto personalizado a Amazon Bedrock
Enrutadores de peticiones: Enrutamiento de peticiones inteligente en Amazon Bedrock
Modelos para los que ha adquirido rendimiento aprovisionado: Aumento de la capacidad de invocación de modelos con el rendimiento aprovisionado en Amazon Bedrock

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Detener un trabajo

Conjuntos de datos de peticiones