Évaluation des solutions d'IA générative pour le secteur de la santé - AWS Conseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Évaluation des solutions d'IA générative pour le secteur de la santé

L'évaluation des solutions d'IA pour le secteur de la santé que vous créez est essentielle pour garantir leur efficacité, leur fiabilité et leur évolutivité dans des environnements médicaux réels. Utilisez une approche systématique pour évaluer les performances de chaque composant de la solution. Vous trouverez ci-dessous un résumé des méthodologies et des mesures que vous pouvez utiliser pour évaluer votre solution.

Évaluation de l'extraction d'informations

Évaluez les performances des solutions d'extraction d'informations, telles que l'analyseur de CV intelligent et l'extracteur d'entités personnalisé. Vous pouvez mesurer l'alignement des réponses de ces solutions à l'aide d'un jeu de données de test. Si vous ne disposez pas d'un ensemble de données couvrant les profils de talents polyvalents du secteur de la santé et les dossiers médicaux des patients, vous pouvez créer un ensemble de données de tests personnalisé en utilisant la capacité de raisonnement d'un LLM. Par exemple, vous pouvez utiliser un modèle à grands paramètres, tel que Anthropic Claude modèles, pour générer un ensemble de données de test.

Voici trois indicateurs clés que vous pouvez utiliser pour évaluer les modèles d'extraction d'informations :

  • Exactitude et exhaustivité — Ces mesures évaluent la mesure dans laquelle le résultat a capturé les informations correctes et complètes présentes dans les données de vérité sur le terrain. Cela implique de vérifier à la fois l'exactitude des informations extraites et la présence de tous les détails pertinents dans les informations extraites.

  • Similarité et pertinence — Ces mesures évaluent les similitudes sémantiques, structurelles et contextuelles entre les données de sortie et les données de base (la similitude) et la mesure dans laquelle la sortie s'aligne sur le contenu, le contexte et l'intention des données de base (la pertinence) et les prend en compte.

  • Taux de rappel ou de capture ajusté — Ces taux déterminent de manière empirique le nombre de valeurs actuelles des données de vérité sur le terrain qui ont été correctement identifiées par le modèle. Le taux doit inclure une pénalisation pour toutes les fausses valeurs extraites par le modèle.

  • Score de précision : le score de précision vous aide à déterminer le nombre de faux positifs présents dans les prédictions, par rapport aux vrais positifs. Par exemple, vous pouvez utiliser des mesures de précision pour mesurer l'exactitude de la compétence extraite.

Évaluation des solutions RAG avec plusieurs récupérateurs

Pour évaluer dans quelle mesure le système récupère les informations pertinentes et dans quelle mesure il utilise ces informations pour générer des réponses précises et adaptées au contexte, vous pouvez utiliser les métriques suivantes :

  • Pertinence de la réponse — Mesurez la pertinence de la réponse générée, qui utilise le contexte extrait, par rapport à la requête d'origine.

  • Précision du contexte — Sur le total des résultats récupérés, évaluez la proportion de documents ou d'extraits extraits pertinents pour la requête. Une précision contextuelle plus élevée indique que le mécanisme de récupération est efficace pour sélectionner les informations pertinentes.

  • Fidélité — Évalue avec quelle précision la réponse générée reflète les informations contenues dans le contexte extrait. En d'autres termes, mesurez si la réponse reste fidèle à l'information source.

Évaluation d'une solution à l'aide d'un LLM

Vous pouvez utiliser une technique appelée LLM- as-a-judge pour évaluer les réponses textuelles de votre solution d'IA générative. Cela implique d'utiliser LLMs pour évaluer et évaluer les performances des résultats du modèle. Cette technique utilise les fonctionnalités d'Amazon Bedrock pour évaluer divers attributs, tels que la qualité des réponses, la cohérence, l'adhésion, la précision et l'exhaustivité par rapport aux préférences humaines ou aux données de base. Vous utilisez des techniques chain-of-thought (CoT) et quelques techniques d'incitation pour une évaluation complète. L'invite demande au LLM d'évaluer la réponse générée à l'aide d'une grille de notation, et les quelques échantillons de l'invite illustrent le processus d'évaluation réel. L'invite comprend également des directives à suivre par l'évaluateur LLM. Par exemple, vous pouvez envisager d'utiliser une ou plusieurs des techniques d'évaluation suivantes qui utilisent un LLM pour évaluer les réponses générées :

  • Comparaison par paires — Donnez à l'évaluateur LLM une question médicale et plusieurs réponses générées par différentes versions itératives des systèmes RAG que vous avez créés. Demandez à l'évaluateur LLM de déterminer la meilleure réponse en fonction de la qualité de la réponse, de la cohérence et du respect de la question initiale.

  • Notation à réponse unique : cette technique convient parfaitement aux cas d'utilisation dans lesquels vous devez évaluer l'exactitude de la catégorisation, comme la classification des résultats des patients, la catégorisation du comportement des patients, la probabilité de réadmission des patients et la catégorisation des risques. Utilisez l'évaluateur LLM pour analyser la catégorisation ou la classification individuelle de manière isolée, et évaluez le raisonnement qu'il a fourni par rapport aux données de base.

  • Notation guidée par référence — Fournissez à l'évaluateur du LLM une série de questions médicales nécessitant des réponses descriptives. Créez des exemples de réponses à ces questions, tels que des réponses de référence ou des réponses idéales. Demandez à l'évaluateur LLM de comparer la réponse générée par le LLM aux réponses de référence ou aux réponses idéales, et demandez-lui d'évaluer la réponse générée en termes d'exactitude, d'exhaustivité, de similitude, de pertinence ou d'autres attributs. Cette technique vous permet d'évaluer si les réponses générées correspondent à une réponse standard ou exemplaire bien définie.