Évaluation LLMs pour les applications des soins de santé et des sciences de la vie - AWS Conseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Évaluation LLMs pour les applications des soins de santé et des sciences de la vie

Cette section fournit un aperçu complet des exigences et des considérations relatives à l'évaluation de grands modèles linguistiques (LLMs) dans les cas d'utilisation des soins de santé et des sciences de la vie.

Il est important d'utiliser des données fiables sur le terrain et les commentaires des PME pour atténuer les biais et valider l'exactitude de la réponse générée par le LLM. Cette section décrit les meilleures pratiques en matière de collecte et de conservation des données de formation et de test. Il vous aide également à mettre en place des garde-fous et à mesurer le biais et l'équité des données. Il aborde également les tâches médicales courantes de traitement du langage naturel (NLP), telles que la classification de texte, la reconnaissance d'entités nommées et la génération de texte, ainsi que les mesures d'évaluation associées.

Il présente également des flux de travail pour effectuer l'évaluation du LLM pendant la phase d'expérimentation de la formation et la phase de post-production. Le suivi des modèles et les opérations de LLM sont des éléments importants de ce processus d'évaluation.

Données de formation et de test pour les tâches de PNL médicale

Les tâches de PNL médicale utilisent généralement des corpus médicaux (tels que PubMed) ou des informations sur les patients (telles que les notes de visite des patients en clinique) pour classer, résumer et générer des informations. Le personnel médical, tel que les médecins, les administrateurs de soins de santé ou les techniciens, varie en termes d'expertise et de points de vue. En raison de la subjectivité entre ces personnels médicaux, des ensembles de données de formation et de tests plus restreints présentent un risque de biais. Pour atténuer ce risque, nous recommandons les meilleures pratiques suivantes :

  • Lorsque vous utilisez une solution LLM préentraînée, assurez-vous de disposer d'une quantité suffisante de données de test. Les données du test doivent correspondre exactement ou ressembler étroitement aux données médicales réelles. Selon la tâche, cela peut aller de 20 à plus de 100 enregistrements.

  • Lorsque vous peaufinez un LLM, collectez un nombre suffisant de dossiers étiquetés (Ground Truth) provenant SMEs de divers domaines médicaux ciblés. Le point de départ général est d'au moins 100 enregistrements de haute qualité, et nous recommandons de ne pas dépasser 20 enregistrements par PME. Toutefois, compte tenu de la complexité de la tâche et de vos critères d'acceptation de la précision, d'autres enregistrements peuvent être nécessaires.

  • Si cela est nécessaire pour votre cas d'utilisation médicale, mettez en place des garde-fous et mesurez le biais et l'équité des données. Par exemple, assurez-vous que le LLM prévient les erreurs de diagnostic dues au profil racial des patients. Pour plus d'informations, consultez la Sécurité et garde-corps section de ce guide.

De nombreuses sociétés de recherche et développement dans le domaine de l'IA, comme Anthropic, ont déjà intégré des garde-fous dans leurs modèles de base afin d'éviter toute toxicité. Vous pouvez utiliser la détection de toxicité pour vérifier les instructions d'entrée et les réponses de sortie de LLMs. Pour plus d'informations, consultez la section Détection de toxicité dans la documentation Amazon Comprehend.

Dans toute tâche d'IA générative, il existe un risque d'hallucination. Vous pouvez atténuer ce risque en effectuant des tâches de PNL, telles que la classification. Vous pouvez également utiliser des techniques plus avancées, telles que les mesures de similarité de texte. BertScoreest une métrique de similarité de texte couramment adoptée. Pour plus d'informations sur les techniques que vous pouvez utiliser pour atténuer les hallucinations, voir Une enquête complète sur les techniques d'atténuation des hallucinations dans les grands modèles linguistiques.

Indicateurs pour les tâches de PNL médicale

Vous pouvez créer des mesures quantifiables après avoir établi des données fiables sur le terrain et des étiquettes fournies par les PME pour la formation et les tests. Le contrôle de la qualité par le biais de processus qualitatifs, tels que les tests de stress et l'examen des résultats du LLM, est utile pour un développement rapide. Cependant, les métriques agissent comme des repères quantitatifs qui soutiennent les futures opérations de LLM et servent de repères de performance pour chaque version de production.

Il est essentiel de comprendre la tâche médicale. Les métriques correspondent généralement à l'une des tâches générales de PNL suivantes :