Avalie o desempenho do modelo usando outro LLM como juiz

Com um trabalho de avaliação de modelo que usa um modelo de juiz, o Amazon Bedrock usa um LLM para pontuar as respostas de outro modelo e fornecer uma explicação de como ele pontuou cada par de solicitações e respostas. As pontuações e explicações estão disponíveis no console do Amazon Bedrock por meio da página de avaliações.

Esse tipo de avaliação de modelo requer dois modelos diferentes, um modelo gerador e um modelo avaliador. Você define solicitações para o modelo gerador em um conjunto de dados, e o modelo avaliador classifica as respostas a essas solicitações com base nas métricas selecionadas.

O cartão de resumo de métricas no console exibe um histograma que mostra o número de vezes que as respostas receberam uma determinada pontuação e explicações sobre a pontuação das cinco primeiras solicitações encontradas em seu conjunto de dados. O relatório completo do trabalho de avaliação está disponível no bucket do Amazon S3 que você especifica ao criar o trabalho de avaliação do modelo.

Ao criar o trabalho de avaliação do modelo, você pode selecionar um modelo do Amazon Bedrock como modelo gerador ou avaliar um modelo que não seja do Amazon Bedrock fornecendo seus próprios dados de resposta de inferência no conjunto de dados imediato. Se você fornecer seus próprios dados de resposta, o Amazon Bedrock pulará a etapa de invocação do modelo e avaliará diretamente os dados fornecidos.

Para avaliar as respostas dos modelos geradores, o Amazon Bedrock fornece um conjunto de métricas integradas que você pode selecionar. Cada métrica usa um prompt diferente para o modelo do avaliador. Você também pode definir suas próprias métricas personalizadas para seu caso de negócios específico. Para saber mais, consulte Use métricas para entender o desempenho do modelo.

Modelos compatíveis

Modelos de avaliador compatíveis (métricas integradas)

Para criar um trabalho de avaliação que usa um LLM como juiz com as métricas integradas do Amazon Bedrock, você precisa acessar pelo menos um dos modelos de juiz na lista a seguir. Para saber mais sobre como obter acesso aos modelos e à disponibilidade da região, consulteAcessar modelos de base do Amazon Bedrock.

Amazon Nova Pro – amazon.nova-pro-v1:0
AnthropicClaude 3.5 Sonnetv1 — anthropic.claude-3-5-sonnet-20240620-v1:0
AnthropicClaude 3.5 Sonnetv2 — anthropic.claude-3-5-sonnet-20241022-v2:0
Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0
Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0
Anthropic Claude 3.5 Haiku – anthropic.claude-3-5-haiku-20241022-v1:0
Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0
Mistral Large – mistral.mistral-large-2402-v1:0

Os perfis de inferência entre regiões são compatíveis com os modelos listados. Para saber mais, consulte Perfis de inferência entre regiões compatíveis.

Modelos de avaliador compatíveis (métricas personalizadas)

Para criar um trabalho de avaliação que usa um LLM como juiz com métricas personalizadas, você precisa acessar pelo menos um dos modelos de juiz na lista a seguir.

Mistral Large24.02 — mistral.mistral-large-2402-v1:0
Mistral Large24.07 — mistral.mistral-large-2407-v1:0
AnthropicClaude 3.5 Sonnetv1 — anthropic.claude-3-5-sonnet-20240620-v1:0
AnthropicClaude 3.5 Sonnetv2 — anthropic.claude-3-5-sonnet-20241022-v2:0
Anthropic Claude 3.7 Sonnet – anthropic.claude-3-7-sonnet-20250219-v1:0
AnthropicClaude 3 Haiku3 — anthropic.claude-3-haiku-20240307-v1:0
AnthropicClaude 3 Haiku3.5 — anthropic.claude-3-5-haiku-20241022-v1:0
Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0
Meta Llama 3.3 70B Instruct – meta.llama3-3-70b-instruct-v1:0
Amazon Nova Pro – amazon.nova-pro-v1:0

Os perfis de inferência entre regiões são compatíveis com os modelos listados. Para saber mais, consulte Perfis de inferência entre regiões compatíveis.

Modelos de geradores compatíveis

Você pode usar os seguintes tipos de modelo no Amazon Bedrock como modelo gerador em um trabalho de avaliação. Você também pode trazer seus próprios dados de resposta de inferência de modelos que não são do Amazon Bedrock.

Modelos de fundação — Informações sobre modelos de base do Amazon Bedrock
Modelos do Amazon Bedrock Marketplace — Amazon Bedrock Marketplace
Modelos de fundação personalizados — Personalizar o modelo para melhorar a performance para o caso de uso
Modelos de fundação importados — Use a importação de modelo personalizado para importar um modelo de código aberto personalizado para o Amazon Bedrock
Roteadores Prompt — Entendendo o roteamento rápido inteligente no Amazon Bedrock
Modelos para os quais você adquiriu o Provisioned Throughput — Aumentar a capacidade de invocação do modelo com throughput provisionado no Amazon Bedrock

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Gerenciar uma equipe de trabalho de avaliações humanas

Conjuntos de dados de prompts