As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Revise as métricas das avaliações do RAG que usam LLMs (console)
Você pode revisar as métricas apresentadas em um relatório para um trabalho de avaliação do RAG usando o console Amazon Bedrock.
As avaliações do RAG que usam Large Language Models (LLMs) computam métricas de avaliação para avaliar o desempenho de quão bem a base de conhecimento do Amazon Bedrock ou a fonte externa do RAG está recuperando informações e gerando respostas.
Em seu boletim de avaliação do RAG, você verá as métricas e os gráficos detalhados das métricas relevantes para seu tipo de avaliação, seja com recuperação somente ou recuperação com geração de resposta. Métricas diferentes são relevantes para diferentes tipos de avaliação. As pontuações computadas para cada métrica são uma pontuação média para textos recuperados ou respostas geradas em todas as consultas do usuário em seu conjunto de dados de prompts. A pontuação calculada para cada métrica é um valor entre 0 e 1. Quanto mais próximo de 1, mais a característica dessa métrica aparece nos textos ou respostas recuperados. Os gráficos de detalhamento de cada métrica traçam um histograma e contam quantos textos ou respostas recuperados para as consultas estão dentro de cada faixa de pontuação.
Por exemplo, você criou um trabalho de avaliação para avaliar a recuperação com geração de resposta. O boletim do console mostra que uma pontuação computada de integridade nas respostas é de 0,82. A pontuação de completude mede como as respostas geradas abordam todos os aspectos das perguntas dos usuários. Ela é calculada como uma pontuação média para as respostas às perguntas em todas as solicitações do seu conjunto de dados. O gráfico do histograma para completude mostra que a maioria das respostas (barra mais alta) está entre uma faixa de pontuação de completude de 0,7 a 0,8. No entanto, a base de conhecimento também teve uma pontuação alta em estereotipagem, em que declarações generalizadas são feitas nas respostas com 0,94 em média. A base de conhecimento pode gerar respostas bastante completas na maioria das vezes, mas essas respostas incluem uma grande quantidade de declarações generalizadas sobre indivíduos ou grupos de pessoas.
Boletim informativo para avaliações do RAG que usam LLMs
Siga as etapas para abrir o boletim no console do Amazon Bedrock para os trabalhos de avaliação do RAG que usam. LLMs Consulte as informações abaixo para cada métrica relevante somente para os tipos de avaliação de recuperação e recuperação com geração de resposta.
-
Faça login AWS Management Console e abra o console Amazon Bedrock em https://console.aws.amazon.com/bedrock/
. -
Escolha Avaliações no painel de navegação e escolha Avaliação da base de conhecimento.
-
Selecione o nome do seu trabalho de avaliação da base de conhecimento. Você será direcionado para o boletim, que é a página principal da avaliação da base de conhecimento.
nota
Para abrir o boletim, o status da avaliação do RAG deve estar pronto ou disponível.
Métricas relevantes para avaliações de tipo somente de recuperação
Há certas métricas relevantes para avaliar a capacidade da sua base de conhecimento de recuperar informações altamente relevantes.
Relevância do contexto
Essa métrica é relevante para a qualidade das informações recuperadas. A pontuação é uma pontuação média para trechos de texto recuperados em todas as solicitações em seu conjunto de dados. A relevância do contexto significa que os trechos de texto recuperados são contextualmente relevantes para as perguntas. Quanto maior a pontuação, mais contextualmente relevante é, em média, a informação. Quanto menor a pontuação, menos contextualmente relevantes são, em média, as informações.
Cobertura de contexto (requer veracidade fundamental)
Essa métrica é relevante para a qualidade das informações recuperadas. A pontuação é uma pontuação média para trechos de texto recuperados em todas as solicitações em seu conjunto de dados. Cobertura de contexto significa que os trechos de texto recuperados cobrem todas as informações fornecidas nos textos verídicos básicos. Quanto maior a pontuação, maior a cobertura do contexto, em média. Quanto menor a pontuação, menor a cobertura do contexto, em média.
Métricas relevantes para recuperação com avaliações do tipo de geração de resposta
Há certas métricas relevantes para avaliar a capacidade da sua base de conhecimento de gerar respostas úteis e apropriadas com base nas informações recuperadas.
Sumário
Exatidão
Essa métrica é relevante para a qualidade das respostas geradas. A pontuação é uma pontuação média das respostas em todas as solicitações em seu conjunto de dados. Exatidão significa responder com precisão às perguntas. Quanto maior a pontuação, mais corretas são, em média, as respostas geradas. Quanto menor a pontuação, menos corretas são, em média, as respostas geradas.
Completeness
Essa métrica é relevante para a qualidade das respostas geradas. A pontuação é uma pontuação média das respostas em todas as solicitações em seu conjunto de dados. Completude significa responder e resolver todos os aspectos das perguntas. Quanto maior a pontuação, mais completas são, em média, as respostas geradas. Quanto menor a pontuação, menos completas são, em média, as respostas geradas.
Prestatividade
Essa métrica é relevante para a qualidade das respostas geradas. A pontuação é uma pontuação média das respostas em todas as solicitações em seu conjunto de dados. Prestatividade significa respostas holisticamente úteis às perguntas. Quanto maior a pontuação, mais úteis são, em média, as respostas geradas. Quanto menor a pontuação, menos úteis são, em média, as respostas geradas.
Coerência lógica
Essa métrica é relevante para a qualidade das respostas geradas. A pontuação é uma pontuação média das respostas em todas as solicitações em seu conjunto de dados. Coerência lógica significa que as respostas estão livres de lacunas lógicas, inconsistências ou contradições. Quanto maior a pontuação, mais coerentes são, em média, as respostas geradas. Quanto menor a pontuação, menos coerentes são, em média, as respostas geradas.
Fidelidade
Essa métrica é relevante para a qualidade das respostas geradas. A pontuação é uma pontuação média das respostas em todas as solicitações em seu conjunto de dados. Fidelidade significa evitar alucinações com relação aos trechos de texto recuperados. Quanto maior a pontuação, mais fiéis são, em média, as respostas geradas. Quanto menor a pontuação, menos fiéis são, em média, as respostas geradas.
Precisão de citação
Essa métrica é relevante para a qualidade das respostas geradas. A pontuação é uma pontuação média das respostas em todas as solicitações em seu conjunto de dados. A precisão da citação é uma medida do número de passagens citadas que são citadas corretamente. Quanto maior a pontuação, mais citações nas respostas estão corretas, em média. Quanto menor a pontuação, menos citações estão corretas, em média.
Se você optar por usar a precisão de citação, você também deve usar a cobertura de citações e vice-versa. A cobertura de citações é aproximadamente o recall de citações. Usar os dois juntos fornece uma visão completa da qualidade da citação.
Cobertura de citações
Essa métrica é relevante para a qualidade das respostas geradas. A pontuação é uma pontuação média das respostas em todas as solicitações em seu conjunto de dados. A cobertura de citações é aproximadamente o recall de citações e é uma medida de quão bem a resposta é apoiada por passagens citadas. Quanto maior a pontuação, melhor as respostas são apoiadas por citações, em média. Quanto menor a pontuação, menos as respostas são apoiadas por citações, em média.
Se você optar por usar a cobertura de citações, você também deve usar a precisão das citações e vice-versa. Usar os dois juntos fornece uma visão completa da qualidade da citação.
Nocividade
Essa métrica é relevante para a adequação das respostas geradas. A pontuação é uma pontuação média das respostas em todas as solicitações em seu conjunto de dados. Nocividade significa fazer declarações odiosas, insultuosas ou violentas. Quanto maior a pontuação, mais prejudiciais são, em média, as respostas geradas. Quanto menor a pontuação, menos prejudiciais são, em média, as respostas geradas.
Estereotipagem
Essa métrica é relevante para a adequação das respostas geradas. A pontuação é uma pontuação média das respostas em todas as solicitações em seu conjunto de dados. Estereotipar significa fazer declarações generalizadas sobre indivíduos ou grupos de pessoas. Quanto maior a pontuação, mais estereotipagem nas respostas geradas, em média. Quanto menor a pontuação, menos estereotipagem nas respostas geradas, em média. Observe que uma forte presença de estereótipos lisonjeiros e depreciativos resultará em uma pontuação alta.
Recusa
Essa métrica é relevante para a adequação das respostas geradas. A pontuação é uma pontuação média das respostas em todas as solicitações em seu conjunto de dados. Recusa significa respostas evasivas às perguntas. Quanto maior a pontuação, mais evasivas são, em média, as respostas geradas. Quanto menor a pontuação, menos evasivas são, em média, as respostas geradas.