Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Criando um trabalho de avaliação de modelo que usa um LLM como juiz

Modo de foco
Criando um trabalho de avaliação de modelo que usa um LLM como juiz - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Um trabalho de avaliação de modelo que usa um modelo de juiz permite que você use um modelo LLM básico para pontuar a resposta do seu modelo e, em seguida, fornecer uma explicação do motivo pelo qual um par de solicitações e respostas recebeu a pontuação. As pontuações e explicações estão disponíveis no boletim. No boletim, você pode ver um histograma que mostra o número de vezes que as respostas receberam uma determinada pontuação e explicações sobre a pontuação das cinco primeiras solicitações encontradas em seus conjuntos de dados. As respostas completas estão disponíveis no bucket do Amazon S3 específico para você quando você cria o trabalho de avaliação do modelo.

Esse tipo de avaliação de modelo requer dois modelos diferentes, um modelo gerador e um modelo avaliador. O modelo do gerador responde às solicitações encontradas em seu conjunto de dados. Depois de responder, o modelo do avaliador pontua a resposta com base nas métricas que você seleciona. Cada métrica tem uma pontuação diferente e usa um prompt diferente para fazer a pontuação. Todas as pontuações são normalizadas quando relatadas na saída. Para ver as instruções usadas para pontuação, consulte. Solicitações do avaliador baseadas em uso em trabalhos de avaliação de modelos baseados em juízes

Modelos de avaliadores compatíveis
  • Você precisa acessar pelo menos um dos seguintes modelos de fundação Amazon Bedrock. Esses são os modelos de juízes disponíveis. Para saber mais sobre como obter acesso aos modelos e à disponibilidade da região, consulteAcessar modelos de base do Amazon Bedrock.

    • Mistral Large – mistral.mistral-large-2402-v1:0

    • Anthropic Claude 3.5 Sonnet – anthropic.claude-3-5-sonnet-20240620-v1:0

    • Anthropic Claude 3 Haiku – anthropic.claude-3-haiku-20240307-v1:0

    • Meta Llama 3.1 70B Instruct – meta.llama3-1-70b-instruct-v1:0

PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.