Valutazione LLMs per applicazioni nel settore sanitario e delle scienze della vita - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Valutazione LLMs per applicazioni nel settore sanitario e delle scienze della vita

Questa sezione fornisce una panoramica completa dei requisiti e delle considerazioni per la valutazione di modelli linguistici di grandi dimensioni (LLMs) nei casi d'uso nel settore sanitario e delle scienze della vita.

È importante utilizzare dati fondati attendibili e il feedback delle PMI per mitigare i pregiudizi e convalidare l'accuratezza della risposta generata dal LLM. Questa sezione descrive le migliori pratiche per la raccolta e la cura dei dati di formazione e test. Inoltre, consente di implementare barriere e misurare la distorsione e l'equità dei dati. Vengono inoltre illustrate le comuni attività mediche di elaborazione del linguaggio naturale (NLP), come la classificazione del testo, il riconoscimento di entità denominate e la generazione di testo, e le relative metriche di valutazione.

Presenta inoltre flussi di lavoro per eseguire la valutazione LLM durante la fase di sperimentazione della formazione e la fase di post-produzione. Il monitoraggio dei modelli e le operazioni LLM sono elementi importanti di questo processo di valutazione.

Dati di formazione e test per attività mediche di PNL

Le attività di PNL in ambito medico utilizzano in genere corpora medici (ad esempio PubMed) o informazioni sui pazienti (come gli appunti sulle visite dei pazienti in clinica) per classificare, riepilogare e generare approfondimenti. Il personale medico, ad esempio medici, amministratori sanitari o tecnici, varia in termini di competenze e punti di vista. A causa della soggettività tra questo personale medico, set di dati di formazione e test più piccoli rappresentano un rischio di parzialità. Per mitigare questo rischio, consigliamo le seguenti best practice:

  • Quando utilizzi una soluzione LLM preaddestrata, assicurati di disporre di una quantità adeguata di dati di test. I dati del test devono corrispondere esattamente o assomigliare molto ai dati medici effettivi. A seconda dell'attività, questo può variare da 20 a più di 100 record.

  • Quando perfezionate un LLM, raccogliete un numero sufficiente di record etichettati (di base) da una varietà SMEs di settori medici interessati. Un punto di partenza generale è costituito da almeno 100 documenti di alta qualità e consigliamo non più di 20 documenti per ogni PMI. Tuttavia, data la complessità dell'attività e i criteri di accettazione della precisione, potrebbero essere necessari più record.

  • Se necessario per il tuo caso d'uso medico, implementa delle barriere e misura la distorsione e l'equità dei dati. Ad esempio, assicuratevi che l'LLM prevenga diagnosi errate dovute ai profili razziali dei pazienti. Per ulteriori informazioni, consulta la Sicurezza e guardrail sezione di questa guida.

Molte società di ricerca e sviluppo di intelligenza artificiale, come Anthropic, hanno già implementato dei guardrail nei loro modelli di base per evitare la tossicità. È possibile utilizzare il rilevamento della tossicità per controllare i prompt di input e le risposte di output. LLMs Per ulteriori informazioni, consulta la sezione Rilevamento della tossicità nella documentazione di Amazon Comprehend.

In qualsiasi attività di intelligenza artificiale generativa, esiste il rischio di allucinazioni. È possibile mitigare questo rischio eseguendo attività di PNL, come la classificazione. Puoi anche utilizzare tecniche più avanzate, come le metriche di somiglianza del testo. BertScoreè una metrica di somiglianza del testo comunemente adottata. Per ulteriori informazioni sulle tecniche che è possibile utilizzare per mitigare le allucinazioni, vedere A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models.

Metriche per le attività mediche di PNL

È possibile creare metriche quantificabili dopo aver stabilito dati attendibili ed etichette fornite dalle PMI per la formazione e i test. Il controllo della qualità attraverso processi qualitativi, come lo stress test e la revisione dei risultati del LLM, è utile per uno sviluppo rapido. Tuttavia, le metriche fungono da benchmark quantitativi che supportano le future operazioni LLM e fungono da benchmark delle prestazioni per ogni versione di produzione.

Comprendere il compito medico è fondamentale. Le metriche in genere si riferiscono a una delle seguenti attività generali di PNL: