Avaliação de soluções generativas de IA para assistência médica - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Avaliação de soluções generativas de IA para assistência médica

Avaliar as soluções de IA de saúde que você cria é fundamental para garantir que elas sejam eficazes, confiáveis e escaláveis em ambientes médicos do mundo real. Use uma abordagem sistemática para avaliar o desempenho de cada componente da solução. A seguir está um resumo das metodologias e métricas que você pode usar para avaliar sua solução.

Avaliando a extração de informações

Avalie o desempenho das soluções de extração de informações, como o analisador inteligente de currículos e o extrator de entidades personalizado. Você pode medir o alinhamento das respostas dessas soluções usando um conjunto de dados de teste. Se você não tiver um conjunto de dados que abranja perfis versáteis de talentos da área de saúde e registros médicos de pacientes, você pode criar um conjunto de dados de teste personalizado usando a capacidade de raciocínio de um LLM. Por exemplo, você pode usar um modelo de parâmetros grandes, como Anthropic Claude modelos, para gerar um conjunto de dados de teste.

A seguir estão três métricas principais que você pode usar para avaliar os modelos de extração de informações:

  • Precisão e integridade — Essas métricas avaliam até que ponto a saída capturou as informações corretas e completas presentes nos dados reais básicos. Isso envolve verificar a exatidão das informações extraídas e a presença de todos os detalhes relevantes nas informações extraídas.

  • Similaridade e relevância — Essas métricas avaliam as semelhanças semânticas, estruturais e contextuais entre a saída e os dados verdadeiros fundamentais (a semelhança) e o grau em que a saída se alinha e aborda o conteúdo, o contexto e a intenção dos dados verídicos básicos (a relevância).

  • Taxa ajustada de recall ou captura — Essas taxas determinam empiricamente quantos dos valores presentes nos dados reais fundamentais foram identificados corretamente pelo modelo. A taxa deve incluir uma penalização para todos os valores falsos que o modelo extrai.

  • Pontuação de precisão — A pontuação de precisão ajuda a determinar quantos falsos positivos estão presentes nas previsões, em comparação com os verdadeiros positivos. Por exemplo, você pode usar métricas de precisão para medir a exatidão da proficiência de habilidade extraída.

Avaliando soluções RAG com vários recuperadores

Para avaliar o quão bem o sistema recupera as informações relevantes e com que eficácia ele usa essas informações para gerar respostas precisas e contextualmente apropriadas, você pode usar as seguintes métricas:

  • Relevância da resposta — meça a relevância da resposta gerada, que usa o contexto recuperado, em relação à consulta original.

  • Precisão do contexto — do total de resultados recuperados, avalie a proporção de documentos ou trechos recuperados que são relevantes para a consulta. Uma maior precisão de contexto indica que o mecanismo de recuperação é eficaz na seleção de informações relevantes.

  • Fidelidade — avalia a precisão com que a resposta gerada reflete as informações no contexto recuperado. Em outras palavras, meça se a resposta permanece fiel às informações de origem.

Avaliando uma solução usando um LLM

Você pode usar uma técnica chamada LLM- as-a-judge para avaliar as respostas de texto da sua solução generativa de IA. Envolve o uso LLMs para avaliar e avaliar o desempenho dos resultados do modelo. Essa técnica usa os recursos do Amazon Bedrock para fornecer julgamentos sobre vários atributos, como qualidade da resposta, coerência, aderência, precisão e integridade das preferências humanas ou dados reais fundamentais. Você usa chain-of-thought (CoT) e algumas técnicas de solicitação para uma avaliação abrangente. O prompt instrui o LLM a avaliar a resposta gerada com a rubrica de pontuação, e as poucas amostras no prompt demonstram o processo de avaliação real. O aviso também inclui diretrizes para o avaliador do LLM seguir. Por exemplo, você pode considerar o uso de uma ou mais das seguintes técnicas de avaliação que usam um LLM para avaliar as respostas geradas:

  • Comparação em pares — Dê ao avaliador do LLM uma pergunta médica e várias respostas que foram geradas por versões diferentes e iterativas dos sistemas RAG que você criou. Peça ao avaliador do LLM que determine a melhor resposta com base na qualidade da resposta, coerência e adesão à pergunta original.

  • Classificação de resposta única — Essa técnica é adequada para casos de uso em que você precisa avaliar a precisão da categorização, como classificação dos resultados do paciente, categorização do comportamento do paciente, probabilidade de readmissão do paciente e categorização do risco. Use o avaliador LLM para analisar a categorização ou classificação individual isoladamente e avaliar o raciocínio fornecido com base em dados verídicos.

  • Classificação guiada por referência — Forneça ao avaliador do LLM uma série de perguntas médicas que exigem respostas descritivas. Crie exemplos de respostas para essas perguntas, como respostas de referência ou respostas ideais. Solicite ao avaliador do LLM que compare a resposta gerada pelo LLM com as respostas de referência ou respostas ideais e solicite que o avaliador do LLM classifique a resposta gerada quanto à precisão, integridade, semelhança, relevância ou outros atributos. Essa técnica ajuda a avaliar se as respostas geradas estão alinhadas com uma resposta padrão ou exemplar bem definida.