As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Um trabalho de avaliação de modelo que usa um modelo de juiz permite que você use um modelo LLM básico para pontuar a resposta do seu modelo e, em seguida, fornecer uma explicação do motivo pelo qual um par de solicitações e respostas recebeu a pontuação. As pontuações e explicações estão disponíveis no boletim. No boletim, você pode ver um histograma que mostra o número de vezes que as respostas receberam uma determinada pontuação e explicações sobre a pontuação das cinco primeiras solicitações encontradas em seus conjuntos de dados. As respostas completas estão disponíveis no bucket do Amazon S3 específico para você quando você cria o trabalho de avaliação do modelo.
Esse tipo de avaliação de modelo requer dois modelos diferentes, um modelo gerador e um modelo avaliador. O modelo do gerador responde às solicitações encontradas em seu conjunto de dados. Depois de responder, o modelo do avaliador pontua a resposta com base nas métricas que você seleciona. Cada métrica tem uma pontuação diferente e usa um prompt diferente para fazer a pontuação. Todas as pontuações são normalizadas quando relatadas na saída. Para ver as instruções usadas para pontuação, consulte. Solicitações do avaliador baseadas em uso em trabalhos de avaliação de modelos baseados em juízes
Modelos de avaliadores compatíveis
-
Você precisa acessar pelo menos um dos seguintes modelos de fundação Amazon Bedrock. Esses são os modelos de juízes disponíveis. Para saber mais sobre como obter acesso aos modelos e à disponibilidade da região, consulteAcessar modelos de base do Amazon Bedrock.
-
Mistral Large –
mistral.mistral-large-2402-v1:0
-
Anthropic Claude 3.5 Sonnet –
anthropic.claude-3-5-sonnet-20240620-v1:0
-
Anthropic Claude 3 Haiku –
anthropic.claude-3-haiku-20240307-v1:0
-
Meta Llama 3.1 70B Instruct –
meta.llama3-1-70b-instruct-v1:0
-