Analise as métricas para um trabalho de avaliação automatizada de modelos no Amazon Bedrock (console) - Amazon Bedrock

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Analise as métricas para um trabalho de avaliação automatizada de modelos no Amazon Bedrock (console)

Você pode revisar as métricas apresentadas em um relatório para um trabalho de avaliação automática de modelos usando o console Amazon Bedrock.

No boletim da avaliação do modelo, você verá o número total de prompts no conjunto de dados que você forneceu ou selecionou e quantos desses prompts receberam respostas. Se o número de respostas for menor que o número de prompts de entrada, verifique o arquivo de saída de dados no bucket do Amazon S3. É possível que o prompt tenha causado um erro no modelo e nenhuma inferência tenha sido recuperada. Somente as respostas do modelo serão usadas nos cálculos das métricas.

Use o procedimento a seguir para analisar um trabalho automático de avaliação de modelo no console do Amazon Bedrock.

  1. Abra o console do Amazon Bedrock.

  2. No painel de navegação, selecione Avaliação de modelos.

  3. Na tabela Avaliações de modelos, encontre o nome do trabalho de avaliação automatizada de modelo que você deseja revisar. Selecione-o.

Em todas as métricas relacionadas à robustez semântica, o Amazon Bedrock perturba os prompts das seguintes maneiras: converte texto para que fique todo em letras minúsculas, insere erros de digitação, converte números em palavras, faz alterações aleatórias para letras maiúsculas e adiciona/exclui espaços em branco aleatoriamente.

Depois de abrir o relatório de avaliação do modelo, você poderá ver as métricas resumidas e o Resumo da configuração do trabalho.

Para cada métrica e conjunto de dados de prompts especificados quando o trabalho foi criado, você vê um cartão e um valor para cada conjunto de dados especificado para essa métrica. A forma como esse valor é calculado muda com base no tipo de tarefa e nas métricas selecionadas.

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de geração de texto geral
  • Precisão: para essa métrica, o valor é calculado usando a pontuação de conhecimento do mundo real (RWKpontuação). RWKscore examina a capacidade do modelo de codificar o conhecimento factual sobre o mundo real. Uma RWK pontuação alta indica que seu modelo está sendo preciso.

  • Robustez: para essa métrica, o valor é calculado usando a robustez semântica. Esse cálculo se baseia na taxa de palavras erradas. A robustez semântica mede o quanto a saída do modelo muda como resultado de pequenas perturbações de preservação semântica na entrada. A robustez a tais perturbações é uma propriedade desejável e, portanto, uma baixa pontuação de robustez semântica indica que o modelo está funcionando bem.

    Os tipos de perturbação que consideraremos são: conversão de texto para que fique todo em letras minúsculas, erros de digitação, conversão de números em palavras, alterações aleatórias para letras maiúsculas e adição/exclusão aleatória de espaços em branco. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez.

  • Toxicidade: para essa métrica, o valor é calculado usando a toxicidade do algoritmo detoxify. Um valor baixo de toxicidade indica que o modelo selecionado não está produzindo grandes quantidades de conteúdo tóxico. Para saber mais sobre o algoritmo de desintoxicação e ver como a toxicidade é calculada, consulte o algoritmo de desintoxicação em. GitHub

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de resumo de texto
  • Precisão: para essa métrica, o valor é calculado usando BERT Pontuação. BERTA pontuação é calculada usando incorporações contextuais pré-treinadas de modelos. BERT Ela combina palavras em frases candidatas e de referência usando similaridade por cosseno.

  • Robustez: para essa métrica, o valor calculado é uma porcentagem. É calculado tomando (DeltaBERTScore/BERTScore) x 100. Delta BERTScore é a diferença nas BERT pontuações entre uma solicitação perturbada e a solicitação original em seu conjunto de dados. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez. Uma pontuação mais baixa indica que o modelo selecionado é mais robusto.

  • Toxicidade: para essa métrica, o valor é calculado usando a toxicidade do algoritmo detoxify. Um valor baixo de toxicidade indica que o modelo selecionado não está produzindo grandes quantidades de conteúdo tóxico. Para saber mais sobre o algoritmo de desintoxicação e ver como a toxicidade é calculada, consulte o algoritmo de desintoxicação em. GitHub

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de perguntas e respostas
  • Precisão: para essa métrica, o valor calculado é a pontuação F1. A pontuação F1 é calculada dividindo a pontuação de precisão (a proporção de previsões corretas para todas as previsões) pela pontuação de recall (a proporção de previsões corretas em relação ao número total de previsões relevantes). A pontuação F1 varia de 0 a 1, com valores mais altos indicando melhor performance.

  • Robustez: para essa métrica, o valor calculado é uma porcentagem. É calculada pela fórmula (Delta F1 / F1) x 100. Delta F1 é a diferença nas pontuações de F1 entre uma solicitação perturbada e a solicitação original em seu conjunto de dados. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez. Uma pontuação mais baixa indica que o modelo selecionado é mais robusto.

  • Toxicidade: para essa métrica, o valor é calculado usando a toxicidade do algoritmo detoxify. Um valor baixo de toxicidade indica que o modelo selecionado não está produzindo grandes quantidades de conteúdo tóxico. Para saber mais sobre o algoritmo de desintoxicação e ver como a toxicidade é calculada, consulte o algoritmo de desintoxicação em. GitHub

Como cada métrica disponível é calculada quando aplicada ao tipo de tarefa de classificação de texto
  • Precisão: para essa métrica, o valor calculado é a precisão. Precisão é uma pontuação que compara a classe prevista com seu rótulo real. Uma precisão mais alta indica que o modelo está classificando corretamente o texto com base no rótulo real fornecido.

  • Robustez: para essa métrica, o valor calculado é uma porcentagem. É calculado tomando (pontuação de precisão da classificação delta/pontuação de precisão da classificação) x 100. A pontuação de precisão da classificação delta é a diferença entre a pontuação de precisão da classificação do prompt perturbado e o prompt de entrada original. Cada prompt no conjunto de dados é perturbado aproximadamente cinco vezes. Depois, cada resposta perturbada é enviada para inferência e é usada para calcular automaticamente as pontuações de robustez. Uma pontuação mais baixa indica que o modelo selecionado é mais robusto.