Avaliação LLMs para aplicações de saúde e ciências biológicas

Esta seção fornece uma visão geral abrangente dos requisitos e considerações para avaliar grandes modelos de linguagem (LLMs) em casos de uso de saúde e ciências biológicas.

É importante usar dados reais básicos e feedback do SME para mitigar o viés e validar a precisão da resposta gerada pelo LLM. Esta seção descreve as melhores práticas para coletar e organizar dados de treinamento e teste. Também ajuda você a implementar barreiras e medir o viés e a imparcialidade dos dados. Ele também discute as tarefas médicas comuns de processamento de linguagem natural (PNL), como classificação de texto, reconhecimento de entidades nomeadas e geração de texto, e suas métricas de avaliação associadas.

Ele também apresenta fluxos de trabalho para realizar a avaliação do LLM durante a fase de experimentação do treinamento e a fase de pós-produção. O monitoramento do modelo e as operações de LLM são elementos importantes desse processo de avaliação.

Dados de treinamento e teste para tarefas médicas de PNL

As tarefas de PNL médica geralmente usam corporações médicas (como PubMed) ou informações do paciente (como notas de visitas de pacientes à clínica) para classificar, resumir e gerar insights. O pessoal médico, como médicos, administradores de serviços de saúde ou técnicos, varia em experiência e pontos de vista. Devido à subjetividade entre esses profissionais médicos, conjuntos menores de dados de treinamento e testes representam um risco de viés. Para mitigar esse risco, recomendamos as seguintes práticas recomendadas:

Ao usar uma solução LLM pré-treinada, verifique se você tem uma quantidade adequada de dados de teste. Os dados do teste devem ser exatamente iguais ou muito parecidos com os dados médicos reais. Dependendo da tarefa, isso pode variar de 20 a mais de 100 registros.
Ao ajustar um LLM, colete um número suficiente de registros rotulados (verdades fundamentais) de uma variedade SMEs do domínio médico alvo. Um ponto de partida geral são pelo menos 100 registros de alta qualidade, e recomendamos não mais do que 20 registros de cada PME. No entanto, dada a complexidade da tarefa e seus critérios de aceitação de precisão, mais registros podem ser necessários.
Se necessário para seu caso de uso médico, implemente grades de proteção e meça o viés e a imparcialidade dos dados. Por exemplo, certifique-se de que o LLM evite diagnósticos errados devido aos perfis raciais dos pacientes. Para obter mais informações, consulte a Segurança e grades de proteção seção deste guia.

Muitas empresas de pesquisa e desenvolvimento de IA, como a Anthropic, já implementaram grades de proteção em seus modelos básicos para evitar toxicidade. Você pode usar a detecção de toxicidade para verificar as solicitações de entrada e as respostas de saída de. LLMs Para obter mais informações, consulte Detecção de toxicidade na documentação do Amazon Comprehend.

Em qualquer tarefa generativa de IA, existe o risco de alucinação. Você pode mitigar esse risco executando tarefas de PNL, como classificação. Você também pode usar técnicas mais avançadas, como métricas de similaridade de texto. BertScoreé uma métrica de similaridade de texto comumente adotada. Para obter mais informações sobre técnicas que você pode usar para mitigar a alucinação, consulte Uma pesquisa abrangente sobre técnicas de mitigação de alucinações em modelos de linguagem ampla.

Métricas para tarefas médicas de PNL

Você pode criar métricas quantificáveis depois de estabelecer dados reais básicos e rótulos fornecidos pelas PME para treinamento e testes. Verificar a qualidade por meio de processos qualitativos, como testes de estresse e revisão dos resultados do LLM, é útil para um desenvolvimento rápido. No entanto, as métricas atuam como referências quantitativas que apoiam futuras operações de LLM e atuam como referências de desempenho para cada versão de produção.

Compreender a tarefa médica é fundamental. Normalmente, as métricas são mapeadas para uma das seguintes tarefas gerais de PNL:

Classificação de texto — O LLM categoriza o texto em uma ou mais categorias predefinidas, com base na solicitação de entrada e no contexto fornecido. Um exemplo é classificar uma categoria de dor usando uma escala de dor. Exemplos de métricas de classificação de texto incluem:
- Precisão
- Precisão, também conhecida como precisão macro
- Recall, também conhecido como recall de macro
- Pontuação F1, também conhecida como pontuação macro F1
- Perda de Hamming
Reconhecimento de entidade nomeada (NER) — Também conhecido como extração de texto, o reconhecimento de entidade nomeada é o processo de localizar e classificar entidades nomeadas que são mencionadas em texto não estruturado em categorias predefinidas. Um exemplo é extrair os nomes dos medicamentos dos prontuários dos pacientes. Exemplos de métricas do NER incluem:
Geração — O LLM gera um novo texto processando a solicitação e o contexto fornecido. A geração inclui tarefas de resumo ou tarefas de resposta a perguntas. Exemplos de métricas de geração incluem:
- Substituta de Avaliação de Gisting Orientada a Recalls (ROUGE)
- Métrica para avaliação de tradução com explícito ORdering (METEOR)
- Subestudo de avaliação bilíngue (BLEU) (para traduções)
- Distância da corda, também conhecida como similaridade de cosseno

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Como escolher uma abordagem

Perguntas frequentes