Analisar as métricas de um trabalho automatizado de avaliação de modelo no Amazon Bedrock (console)

É possível analisar as métricas apresentadas em um relatório para um trabalho automático de avaliação de modelo usando o console do Amazon Bedrock.

No boletim da avaliação de modelo, você verá o número total de prompts no conjunto de dados que forneceu ou selecionou e quantos desses prompts receberam respostas. Se o número de respostas for menor que o número de prompts de entrada, verifique o arquivo de saída de dados no bucket do Amazon S3. É possível que o prompt tenha causado um erro no modelo e nenhuma inferência tenha sido recuperada. Somente as respostas do modelo serão usadas nos cálculos das métricas.

Use o procedimento a seguir para analisar um trabalho automático de avaliação de modelo no console do Amazon Bedrock.

Abra o console do Amazon Bedrock.
No painel de navegação, selecione Avaliação de modelos.
Na tabela Avaliações de modelos, encontre o nome do trabalho de avaliação automatizada de modelo que você deseja revisar. Selecione-o.

Em todas as métricas relacionadas à robustez semântica, o Amazon Bedrock perturba os prompts das seguintes maneiras: converte texto para que fique todo em letras minúsculas, insere erros de digitação, converte números em palavras, faz alterações aleatórias para letras maiúsculas e adiciona/exclui espaços em branco aleatoriamente.

Depois de abrir o relatório da avaliação de modelo, você poderá ver as métricas resumidas e o Resumo da configuração do trabalho.

Para cada métrica e conjunto de dados de prompts especificados quando o trabalho foi criado, você vê um cartão e um valor para cada conjunto de dados especificado para essa métrica. A forma como esse valor é calculado muda com base no tipo de tarefa e nas métricas selecionadas.

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de geração de texto geral

Precisão: para essa métrica, o valor é calculado usando a pontuação de conhecimento do mundo real (RWKpontuação). RWKscore examina a capacidade do modelo de codificar o conhecimento factual sobre o mundo real. Uma RWK pontuação alta indica que seu modelo está sendo preciso.
Robustez: para essa métrica, o valor é calculado usando a robustez semântica. Esse cálculo se baseia na taxa de palavras erradas. A robustez semântica mede o quanto a saída do modelo muda como resultado de pequenas perturbações de preservação semântica na entrada. A robustez a tais perturbações é uma propriedade desejável e, portanto, uma baixa pontuação de robustez semântica indica que o modelo está funcionando bem.

Os tipos de perturbação que consideraremos são: conversão de texto para que fique todo em letras minúsculas, erros de digitação, conversão de números em palavras, alterações aleatórias para letras maiúsculas e adição/exclusão aleatória de espaços em branco. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez.
Toxicidade: para essa métrica, o valor é calculado usando a toxicidade do algoritmo detoxify. Um valor baixo de toxicidade indica que o modelo selecionado não está produzindo grandes quantidades de conteúdo tóxico. Para saber mais sobre o algoritmo de desintoxicação e ver como a toxicidade é calculada, consulte o algoritmo de desintoxicação em. GitHub

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de resumo de texto

Precisão: para essa métrica, o valor é calculado usando BERT Pontuação. BERT A pontuação é calculada usando incorporações contextuais pré-treinadas de modelos. BERT Ela combina palavras em frases candidatas e de referência usando similaridade por cosseno.
Robustez: para essa métrica, o valor calculado é uma porcentagem. É calculado tomando (DeltaBERTScore/BERTScore) x 100. Delta BERTScore é a diferença nas BERT pontuações entre uma solicitação perturbada e a solicitação original em seu conjunto de dados. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez. Uma pontuação mais baixa indica que o modelo selecionado é mais robusto.
Toxicidade: para essa métrica, o valor é calculado usando a toxicidade do algoritmo detoxify. Um valor baixo de toxicidade indica que o modelo selecionado não está produzindo grandes quantidades de conteúdo tóxico. Para saber mais sobre o algoritmo de desintoxicação e ver como a toxicidade é calculada, consulte o algoritmo de desintoxicação em. GitHub

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de perguntas e respostas

Precisão: para essa métrica, o valor calculado é a pontuação F1. A pontuação F1 é calculada dividindo a pontuação de precisão (a proporção de previsões corretas para todas as previsões) pela pontuação de recall (a proporção de previsões corretas em relação ao número total de previsões relevantes). A pontuação F1 varia de 0 a 1, com valores mais altos indicando melhor performance.
Robustez: para essa métrica, o valor calculado é uma porcentagem. Ela é calculada pela fórmula (Delta F1/F1) x 100. Delta F1 é a diferença em F1 Scores entre um prompt perturbado e o prompt original no conjunto de dados. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez. Uma pontuação mais baixa indica que o modelo selecionado é mais robusto.
Toxicidade: para essa métrica, o valor é calculado usando a toxicidade do algoritmo detoxify. Um valor baixo de toxicidade indica que o modelo selecionado não está produzindo grandes quantidades de conteúdo tóxico. Para saber mais sobre o algoritmo de desintoxicação e ver como a toxicidade é calculada, consulte o algoritmo de desintoxicação em. GitHub

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de classificação de texto

Precisão: para essa métrica, o valor calculado é a precisão. Precisão é uma pontuação que compara a classe prevista com seu rótulo real. Uma precisão mais alta indica que o modelo está classificando corretamente o texto com base no rótulo real fornecido.
Robustez: para essa métrica, o valor calculado é uma porcentagem. É calculada pela fórmula (delta da pontuação de precisão da classificação/pontuação de precisão da classificação) x 100. O delta da pontuação da precisão da classificação é a diferença entre a pontuação de precisão da classificação do prompt perturbado e do prompt de entrada original. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez. Uma pontuação mais baixa indica que o modelo selecionado é mais robusto.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Relatórios e métricas para avaliação de modelo

Analisar um trabalho de avaliação de modelo humano