Evaluación del rendimiento de los orígenes de RAG mediante las evaluaciones de Amazon Bedrock - Amazon Bedrock

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Evaluación del rendimiento de los orígenes de RAG mediante las evaluaciones de Amazon Bedrock

Puede utilizar métricas calculadas para evaluar la eficacia con la que un sistema de generación aumentada por recuperación (RAG) recupera la información relevante de sus orígenes de datos y la eficacia de las respuestas generadas al responder a las preguntas. Los resultados de una evaluación de RAG le permiten comparar diferentes bases de conocimiento de Amazon Bedrock y otros orígenes de RAG y, a continuación, elegir la base de conocimiento o el mejor sistema de RAG para su aplicación.

Puede configurar dos tipos diferentes de trabajos de evaluación de RAG.

  • Solo recuperación: en un trabajo de evaluación de RAG de solo recuperación, el informe se basa en los datos recuperados de su origen de RAG. Puede evaluar una base de conocimiento de Amazon Bedrock o puede traer sus propios datos de respuesta de inferencia de un origen de RAG externo.

  • Recuperación y generación: en un trabajo de evaluación de RAG de recuperación y generación, el informe se basa en los datos recuperados de su base de conocimiento y en los resúmenes generados por el modelo generador de respuestas. Puede evaluar una base de conocimiento de Amazon Bedrock y un modelo generador de respuestas, o puede traer sus propios datos de respuesta de inferencia de un origen de RAG externo.

Modelos compatibles

Para crear un trabajo de evaluación de RAG, debe tener acceso como mínimo a uno de los modelos evaluadores de las siguientes listas. Para crear un trabajo de recuperación y generación que utilice un modelo de Amazon Bedrock para generar las respuestas, también necesita acceder al menos a uno de los modelos generadores de respuestas de la lista.

Para obtener más información sobre cómo acceder a los modelos y la disponibilidad de las regiones, consulte Acceso a los modelos fundacionales de Amazon Bedrock.

Modelos evaluadores compatibles (métricas integradas)

  • Amazon Nova Pro – amazon.nova-pro-v1:0

  • Anthropic Claude 3.5 Sonnet v1 – anthropic.claude-3-5-sonnet-20240620-v1:0

  • Anthropic Claude 3.5 Sonnet v2 – anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0

  • Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Mistral Large – mistral.mistral-large-2402-v1:0

Los perfiles de inferencia entre regiones son compatibles con los modelos de la lista. Para obtener más información, consulte Perfiles de inferencia entre regiones admitidos.

Modelos evaluadores compatibles (métricas personalizadas)

  • Mistral Large 24.02 – mistral.mistral-large-2402-v1:0

  • Mistral Large 24.07 – mistral.mistral-large-2407-v1:0

  • Anthropic Claude 3.5 Sonnet v1 – anthropic.claude-3-5-sonnet-20240620-v1:0

  • Anthropic Claude 3.5 Sonnet v2 – anthropic.claude-3-5-sonnet-20241022-v2:0

  • Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0

  • Anthropic Claude 3 Haiku 3 – anthropic.claude-3-haiku-20240307-v1:0

  • Anthropic Claude 3 Haiku 3.5 – anthropic.claude-3-5-haiku-20241022-v1:0

  • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

  • Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0

  • Amazon Nova Pro – amazon.nova-pro-v1:0

Los perfiles de inferencia entre regiones son compatibles con los modelos de la lista. Para obtener más información, consulte Perfiles de inferencia entre regiones admitidos.

Modelos generadores de respuestas compatibles

Puede utilizar los siguientes tipos de modelos en Amazon Bedrock como el modelo generador de respuestas en un trabajo de evaluación. También puede incorporar sus propios datos de respuesta de inferencia de modelos que no son de Amazon Bedrock.