Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Evaluación del rendimiento de los orígenes de RAG mediante las evaluaciones de Amazon Bedrock
Puede utilizar métricas calculadas para evaluar la eficacia con la que un sistema de generación aumentada por recuperación (RAG) recupera la información relevante de sus orígenes de datos y la eficacia de las respuestas generadas al responder a las preguntas. Los resultados de una evaluación de RAG le permiten comparar diferentes bases de conocimiento de Amazon Bedrock y otros orígenes de RAG y, a continuación, elegir la base de conocimiento o el mejor sistema de RAG para su aplicación.
Puede configurar dos tipos diferentes de trabajos de evaluación de RAG.
-
Solo recuperación: en un trabajo de evaluación de RAG de solo recuperación, el informe se basa en los datos recuperados de su origen de RAG. Puede evaluar una base de conocimiento de Amazon Bedrock o puede traer sus propios datos de respuesta de inferencia de un origen de RAG externo.
-
Recuperación y generación: en un trabajo de evaluación de RAG de recuperación y generación, el informe se basa en los datos recuperados de su base de conocimiento y en los resúmenes generados por el modelo generador de respuestas. Puede evaluar una base de conocimiento de Amazon Bedrock y un modelo generador de respuestas, o puede traer sus propios datos de respuesta de inferencia de un origen de RAG externo.
Modelos compatibles
Para crear un trabajo de evaluación de RAG, debe tener acceso como mínimo a uno de los modelos evaluadores de las siguientes listas. Para crear un trabajo de recuperación y generación que utilice un modelo de Amazon Bedrock para generar las respuestas, también necesita acceder al menos a uno de los modelos generadores de respuestas de la lista.
Para obtener más información sobre cómo acceder a los modelos y la disponibilidad de las regiones, consulte Acceso a los modelos fundacionales de Amazon Bedrock.
Modelos evaluadores compatibles (métricas integradas)
-
Amazon Nova Pro –
amazon.nova-pro-v1:0 -
Anthropic Claude 3.5 Sonnet v1 –
anthropic.claude-3-5-sonnet-20240620-v1:0 -
Anthropic Claude 3.5 Sonnet v2 –
anthropic.claude-3-5-sonnet-20241022-v2:0 -
Anthropic Claude 3.7 Sonnet –
anthropic.claude-3-7-sonnet-20250219-v1:0 -
Anthropic Claude 3 Haiku –
anthropic.claude-3-haiku-20240307-v1:0 -
Anthropic Claude 3.5 Haiku –
anthropic.claude-3-5-haiku-20241022-v1:0 -
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0 -
Mistral Large –
mistral.mistral-large-2402-v1:0
Los perfiles de inferencia entre regiones son compatibles con los modelos de la lista. Para obtener más información, consulte Perfiles de inferencia entre regiones admitidos.
Modelos evaluadores compatibles (métricas personalizadas)
-
Mistral Large 24.02 –
mistral.mistral-large-2402-v1:0 -
Mistral Large 24.07 –
mistral.mistral-large-2407-v1:0 -
Anthropic Claude 3.5 Sonnet v1 –
anthropic.claude-3-5-sonnet-20240620-v1:0 -
Anthropic Claude 3.5 Sonnet v2 –
anthropic.claude-3-5-sonnet-20241022-v2:0 -
Anthropic Claude 3.7 Sonnet –
anthropic.claude-3-7-sonnet-20250219-v1:0 -
Anthropic Claude 3 Haiku 3 –
anthropic.claude-3-haiku-20240307-v1:0 -
Anthropic Claude 3 Haiku 3.5 –
anthropic.claude-3-5-haiku-20241022-v1:0 -
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0 -
Meta Llama 3.3 70B Instruct –
meta.llama3-3-70b-instruct-v1:0 -
Amazon Nova Pro –
amazon.nova-pro-v1:0
Los perfiles de inferencia entre regiones son compatibles con los modelos de la lista. Para obtener más información, consulte Perfiles de inferencia entre regiones admitidos.
Modelos generadores de respuestas compatibles
Puede utilizar los siguientes tipos de modelos en Amazon Bedrock como el modelo generador de respuestas en un trabajo de evaluación. También puede incorporar sus propios datos de respuesta de inferencia de modelos que no son de Amazon Bedrock.
-
Modelos fundacionales: Información del modelo fundacional de Amazon Bedrock
-
Modelos de Amazon Bedrock Marketplace: Amazon Bedrock Marketplace
-
Modelos fundacionales personalizados: Personalización del modelo para mejorar su rendimiento según su caso de uso
-
Modelos fundacionales importados: Uso de la importación de modelos personalizados para importar un modelo de código abierto personalizado a Amazon Bedrock
-
Enrutadores de peticiones: Enrutamiento de peticiones inteligente en Amazon Bedrock
-
Modelos para los que ha adquirido rendimiento aprovisionado: Aumento de la capacidad de invocación de modelos con el rendimiento aprovisionado en Amazon Bedrock