Evaluierung LLMs für Anwendungen im Gesundheitswesen und in den Biowissenschaften - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Evaluierung LLMs für Anwendungen im Gesundheitswesen und in den Biowissenschaften

Dieser Abschnitt bietet einen umfassenden Überblick über die Anforderungen und Überlegungen zur Bewertung umfangreicher Sprachmodelle (LLMs) in Anwendungsfällen im Gesundheitswesen und in den Biowissenschaften.

Es ist wichtig, Ground-Truth-Daten und Feedback von KMU zu verwenden, um Verzerrungen zu vermeiden und die Genauigkeit der vom LLM generierten Antworten zu überprüfen. In diesem Abschnitt werden bewährte Verfahren für die Erfassung und Kuratierung von Schulungs- und Testdaten beschrieben. Es hilft Ihnen auch dabei, Leitplanken zu implementieren und Datenverzerrungen und Fairness zu messen. Außerdem werden die häufigsten Aufgaben der medizinischen Verarbeitung natürlicher Sprache (NLP) wie Textklassifizierung, Erkennung benannter Entitäten und Textgenerierung sowie die damit verbundenen Bewertungsmetriken behandelt.

Außerdem werden Arbeitsabläufe für die Durchführung der LLM-Evaluierung während der Trainingsexperimentierphase und der Phase nach der Produktion vorgestellt. Die Modellüberwachung und der LLM-Betrieb sind wichtige Elemente dieses Bewertungsprozesses.

Trainings- und Testdaten für medizinische NLP-Aufgaben

Bei medizinischen NLP-Aufgaben werden häufig medizinische Korpora (z. B. PubMed) oder Patienteninformationen (z. B. Notizen zu Krankenhausbesuchen) verwendet, um Erkenntnisse zu klassifizieren, zusammenzufassen und Erkenntnisse zu gewinnen. Medizinisches Personal, wie Ärzte, Gesundheitsverwalter oder Techniker, unterscheidet sich in Bezug auf Fachwissen und Sichtweisen. Aufgrund der Subjektivität zwischen diesen medizinischen Fachkräften besteht bei kleineren Schulungs- und Testdatensätzen die Gefahr von Verzerrungen. Um dieses Risiko zu minimieren, empfehlen wir die folgenden bewährten Methoden:

  • Wenn Sie eine vortrainierte LLM-Lösung verwenden, stellen Sie sicher, dass Sie über eine ausreichende Menge an Testdaten verfügen. Die Testdaten sollten exakt mit den tatsächlichen medizinischen Daten übereinstimmen oder ihnen sehr ähnlich sein. Je nach Aufgabe kann dies zwischen 20 und mehr als 100 Datensätzen liegen.

  • Sammeln Sie bei der Feinabstimmung eines LLM eine ausreichende Anzahl von markierten (Ground-Truth-Datensätzen) aus einer Vielzahl SMEs von medizinischen Zielgebieten. Ein allgemeiner Ausgangspunkt sind mindestens 100 qualitativ hochwertige Datensätze, und wir empfehlen nicht mehr als 20 Datensätze von jedem KMU. Angesichts der Komplexität der Aufgabe und Ihrer Akzeptanzkriterien für die Genauigkeit sind jedoch möglicherweise mehr Datensätze erforderlich.

  • Falls es für Ihren medizinischen Anwendungsfall erforderlich ist, sollten Sie Leitplanken implementieren und Datenverzerrungen und Fairness messen. Stellen Sie beispielsweise sicher, dass das LLM Fehldiagnosen aufgrund von Rassenprofilen von Patienten verhindert. Weitere Informationen finden Sie im Sicherheit und Leitplanken Abschnitt dieses Handbuchs.

Viele KI-Forschungs- und Entwicklungsunternehmen, wie Anthropic, haben in ihren Gründungsmodellen bereits Leitplanken implementiert, um Toxizität zu vermeiden. Mithilfe der Toxizitätserkennung können Sie die Eingabeaufforderungen und die ausgegebenen Antworten von überprüfen. LLMs Weitere Informationen finden Sie unter Toxizitätserkennung in der Amazon Comprehend Comprehend-Dokumentation.

Bei jeder generativen KI-Aufgabe besteht das Risiko einer Halluzination. Sie können dieses Risiko mindern, indem Sie NLP-Aufgaben wie die Klassifizierung ausführen. Sie können auch fortgeschrittenere Techniken verwenden, z. B. Metriken zur Textähnlichkeit. BertScoreist eine häufig verwendete Metrik zur Textähnlichkeit. Weitere Informationen zu Techniken, mit denen Sie Halluzinationen abmildern können, finden Sie unter Umfassender Überblick über Techniken zur Bekämpfung von Halluzinationen in großen Sprachmodellen.

Metriken für medizinische NLP-Aufgaben

Sie können quantifizierbare Metriken erstellen, nachdem Sie Ground-Truth-Daten und von KMU bereitgestellte Labels für Schulungen und Tests erstellt haben. Die Überprüfung der Qualität durch qualitative Prozesse wie Stresstests und die Überprüfung der LLM-Ergebnisse ist hilfreich für eine schnelle Entwicklung. Metriken dienen jedoch als quantitative Benchmarks, die future LLM-Operationen unterstützen, und dienen als Leistungsmaßstäbe für jede Produktionsversion.

Es ist entscheidend, die medizinische Aufgabe zu verstehen. Metriken werden in der Regel einer der folgenden allgemeinen NLP-Aufgaben zugeordnet: