Valutazione LLMs per applicazioni nel settore sanitario e delle scienze della vita

Questa sezione fornisce una panoramica completa dei requisiti e delle considerazioni per la valutazione di modelli linguistici di grandi dimensioni (LLMs) nei casi d'uso nel settore sanitario e delle scienze della vita.

È importante utilizzare dati fondati attendibili e il feedback delle PMI per mitigare i pregiudizi e convalidare l'accuratezza della risposta generata dal LLM. Questa sezione descrive le migliori pratiche per la raccolta e la cura dei dati di formazione e test. Inoltre, consente di implementare barriere e misurare la distorsione e l'equità dei dati. Vengono inoltre illustrate le comuni attività mediche di elaborazione del linguaggio naturale (NLP), come la classificazione del testo, il riconoscimento di entità denominate e la generazione di testo, e le relative metriche di valutazione.

Presenta inoltre flussi di lavoro per eseguire la valutazione LLM durante la fase di sperimentazione della formazione e la fase di post-produzione. Il monitoraggio dei modelli e le operazioni LLM sono elementi importanti di questo processo di valutazione.

Dati di formazione e test per attività mediche di PNL

Le attività di PNL in ambito medico utilizzano in genere corpora medici (ad esempio PubMed) o informazioni sui pazienti (come gli appunti sulle visite dei pazienti in clinica) per classificare, riepilogare e generare approfondimenti. Il personale medico, ad esempio medici, amministratori sanitari o tecnici, varia in termini di competenze e punti di vista. A causa della soggettività tra questo personale medico, set di dati di formazione e test più piccoli rappresentano un rischio di parzialità. Per mitigare questo rischio, consigliamo le seguenti best practice:

Quando utilizzi una soluzione LLM preaddestrata, assicurati di disporre di una quantità adeguata di dati di test. I dati del test devono corrispondere esattamente o assomigliare molto ai dati medici effettivi. A seconda dell'attività, questo può variare da 20 a più di 100 record.
Quando perfezionate un LLM, raccogliete un numero sufficiente di record etichettati (di base) da una varietà SMEs di settori medici interessati. Un punto di partenza generale è costituito da almeno 100 documenti di alta qualità e consigliamo non più di 20 documenti per ogni PMI. Tuttavia, data la complessità dell'attività e i criteri di accettazione della precisione, potrebbero essere necessari più record.
Se necessario per il tuo caso d'uso medico, implementa delle barriere e misura la distorsione e l'equità dei dati. Ad esempio, assicuratevi che l'LLM prevenga diagnosi errate dovute ai profili razziali dei pazienti. Per ulteriori informazioni, consulta la Sicurezza e guardrail sezione di questa guida.

Molte società di ricerca e sviluppo di intelligenza artificiale, come Anthropic, hanno già implementato dei guardrail nei loro modelli di base per evitare la tossicità. È possibile utilizzare il rilevamento della tossicità per controllare i prompt di input e le risposte di output. LLMs Per ulteriori informazioni, consulta la sezione Rilevamento della tossicità nella documentazione di Amazon Comprehend.

In qualsiasi attività di intelligenza artificiale generativa, esiste il rischio di allucinazioni. È possibile mitigare questo rischio eseguendo attività di PNL, come la classificazione. Puoi anche utilizzare tecniche più avanzate, come le metriche di somiglianza del testo. BertScoreè una metrica di somiglianza del testo comunemente adottata. Per ulteriori informazioni sulle tecniche che è possibile utilizzare per mitigare le allucinazioni, vedere A Comprehensive Survey of Hallucination Mitigation Techniques in Large Language Models.

Metriche per le attività mediche di PNL

È possibile creare metriche quantificabili dopo aver stabilito dati attendibili ed etichette fornite dalle PMI per la formazione e i test. Il controllo della qualità attraverso processi qualitativi, come lo stress test e la revisione dei risultati del LLM, è utile per uno sviluppo rapido. Tuttavia, le metriche fungono da benchmark quantitativi che supportano le future operazioni LLM e fungono da benchmark delle prestazioni per ogni versione di produzione.

Comprendere il compito medico è fondamentale. Le metriche in genere si riferiscono a una delle seguenti attività generali di PNL:

Classificazione del testo: l'LLM classifica il testo in una o più categorie predefinite, in base alla richiesta di input e al contesto fornito. Un esempio è la classificazione di una categoria di dolore utilizzando una scala del dolore. Alcuni esempi di metriche di classificazione del testo includono:
- Precisione
- Precisione, nota anche come precisione macro
- Richiamo, noto anche come richiamo di macro
- Punteggio F1, noto anche come punteggio macro F1
- Perdita di Hamming
Riconoscimento di entità denominate (NER): noto anche come estrazione di testo, il riconoscimento delle entità denominate è il processo di localizzazione e classificazione delle entità denominate menzionate nel testo non strutturato in categorie predefinite. Un esempio è l'estrazione dei nomi dei farmaci dalle cartelle cliniche dei pazienti. Alcuni esempi di metriche NER includono:
Generazione: l'LLM genera nuovo testo elaborando il prompt e il contesto fornito. La generazione include attività di riepilogo o attività di risposta a domande. Alcuni esempi di metriche di generazione includono:
- Sostituto orientato al richiamo per la valutazione del personale (ROUGE)
- Metrica per la valutazione della traduzione con Explicit (METEOR) ORdering
- Sostituto di valutazione bilingue (BLEU) (per le traduzioni)
- Distanza tra le stringhe, nota anche come somiglianza del coseno

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Scelta di un approccio

Domande frequenti