Valutazione di soluzioni di intelligenza artificiale generativa per l'assistenza sanitaria - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Valutazione di soluzioni di intelligenza artificiale generativa per l'assistenza sanitaria

Valutare le soluzioni di intelligenza artificiale per il settore sanitario che crei è fondamentale per garantire che siano efficaci, affidabili e scalabili negli ambienti medici del mondo reale. Utilizza un approccio sistematico per valutare le prestazioni di ogni componente della soluzione. Di seguito è riportato un riepilogo delle metodologie e delle metriche che è possibile utilizzare per valutare la soluzione.

Valutazione dell'estrazione delle informazioni

Valuta le prestazioni delle soluzioni di estrazione delle informazioni, come l'intelligente parser di curriculum e l'estrattore di entità personalizzato. È possibile misurare l'allineamento delle risposte di queste soluzioni utilizzando un set di dati di test. Se non disponi di un set di dati che copra profili versatili di talenti sanitari e cartelle cliniche dei pazienti, puoi creare un set di dati di test personalizzato utilizzando la capacità di ragionamento di un LLM. Ad esempio, è possibile utilizzare un modello di parametri di grandi dimensioni, come Anthropic Claude modelli, per generare un set di dati di test.

Di seguito sono riportate tre metriche chiave che è possibile utilizzare per valutare i modelli di estrazione delle informazioni:

  • Precisione e completezza: queste metriche valutano la misura in cui l'output ha acquisito le informazioni corrette e complete presenti nei dati di base. Ciò implica il controllo sia della correttezza delle informazioni estratte sia della presenza di tutti i dettagli pertinenti nelle informazioni estratte.

  • Somiglianza e pertinenza: queste metriche valutano le somiglianze semantiche, strutturali e contestuali tra l'output e i dati di base (la somiglianza) e il grado in cui l'output si allinea e affronta il contenuto, il contesto e l'intento dei dati di base relativi alla verità (la rilevanza).

  • Frequenza di richiamo o acquisizione adeguata: queste percentuali determinano empiricamente quanti dei valori attuali nei dati di base della verità sono stati identificati correttamente dal modello. La tariffa dovrebbe includere una penalizzazione per tutti i valori falsi estratti dal modello.

  • Punteggio di precisione: il punteggio di precisione consente di determinare quanti falsi positivi sono presenti nelle previsioni, rispetto ai veri positivi. Ad esempio, puoi utilizzare metriche di precisione per misurare la correttezza della competenza acquisita.

Valutazione delle soluzioni RAG con più retriever

Per valutare l'efficacia con cui il sistema recupera le informazioni pertinenti e l'efficacia con cui utilizza tali informazioni per generare risposte accurate e contestualmente appropriate, puoi utilizzare le seguenti metriche:

  • Pertinenza della risposta: misura la pertinenza della risposta generata, che utilizza il contesto recuperato, rispetto alla query originale.

  • Precisione del contesto: rispetto al totale dei risultati recuperati, valuta la percentuale di documenti o frammenti recuperati pertinenti alla query. Una maggiore precisione del contesto indica che il meccanismo di recupero è efficace nella selezione delle informazioni pertinenti.

  • Fedeltà: valuta la precisione con cui la risposta generata riflette le informazioni nel contesto recuperato. In altre parole, misura se la risposta rimane fedele alle informazioni di origine.

Valutazione di una soluzione utilizzando un LLM

Puoi utilizzare una tecnica chiamata LLM- as-a-judge per valutare le risposte testuali della tua soluzione di intelligenza artificiale generativa. Implica l'utilizzo LLMs per valutare e valutare le prestazioni degli output del modello. Questa tecnica utilizza le funzionalità di Amazon Bedrock per fornire giudizi su vari attributi, come la qualità della risposta, la coerenza, l'aderenza, l'accuratezza e la completezza rispetto alle preferenze umane o ai dati di base. Utilizzi tecniche chain-of-thought (CoT) e few-shot prompting per una valutazione completa. Il prompt indica all'LLM di valutare la risposta generata con la rubrica del punteggio e i pochi esempi contenuti nel prompt dimostrano l'effettivo processo di valutazione. Il prompt include anche le linee guida da seguire per il valutatore LLM. Ad esempio, potresti prendere in considerazione l'utilizzo di una o più delle seguenti tecniche di valutazione che utilizzano un LLM per giudicare le risposte generate:

  • Confronto a coppie: poni al valutatore LLM una domanda medica e risposte multiple generate da diverse versioni iterative dei sistemi RAG che hai creato. Chiedi al valutatore LLM di determinare la risposta migliore in base alla qualità della risposta, alla coerenza e all'aderenza alla domanda originale.

  • Classificazione a risposta singola: questa tecnica è ideale per i casi d'uso in cui è necessario valutare l'accuratezza della categorizzazione, come la classificazione degli esiti dei pazienti, la categorizzazione del comportamento del paziente, la probabilità di riammissione del paziente e la categorizzazione del rischio. Utilizzate lo strumento di valutazione LLM per analizzare isolatamente la categorizzazione o la classificazione individuale e valutare le argomentazioni fornite rispetto a dati fondati sulla realtà.

  • Valutazione guidata da riferimenti: fornisci al valutatore LLM una serie di domande mediche che richiedono risposte descrittive. Crea risposte di esempio a queste domande, come risposte di riferimento o risposte ideali. Chiedi al valutatore LLM di confrontare la risposta generata dal LLM con le risposte di riferimento o le risposte ideali e chiedi al valutatore LLM di valutare la risposta generata per accuratezza, completezza, somiglianza, pertinenza o altri attributi. Questa tecnica consente di valutare se le risposte generate sono in linea con una risposta standard o esemplare ben definita.