Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Evaluierung LLMs für Anwendungen im Gesundheitswesen und in den Biowissenschaften
Dieser Abschnitt bietet einen umfassenden Überblick über die Anforderungen und Überlegungen zur Bewertung umfangreicher Sprachmodelle (LLMs) in Anwendungsfällen im Gesundheitswesen und in den Biowissenschaften.
Es ist wichtig, Ground-Truth-Daten und Feedback von KMU zu verwenden, um Verzerrungen zu vermeiden und die Genauigkeit der vom LLM generierten Antworten zu überprüfen. In diesem Abschnitt werden bewährte Verfahren für die Erfassung und Kuratierung von Schulungs- und Testdaten beschrieben. Es hilft Ihnen auch dabei, Leitplanken zu implementieren und Datenverzerrungen und Fairness zu messen. Außerdem werden die häufigsten Aufgaben der medizinischen Verarbeitung natürlicher Sprache (NLP) wie Textklassifizierung, Erkennung benannter Entitäten und Textgenerierung sowie die damit verbundenen Bewertungsmetriken behandelt.
Außerdem werden Arbeitsabläufe für die Durchführung der LLM-Evaluierung während der Trainingsexperimentierphase und der Phase nach der Produktion vorgestellt. Die Modellüberwachung und der LLM-Betrieb sind wichtige Elemente dieses Bewertungsprozesses.
Trainings- und Testdaten für medizinische NLP-Aufgaben
Bei medizinischen NLP-Aufgaben werden häufig medizinische Korpora (z. B. PubMed) oder Patienteninformationen (z. B. Notizen zu Krankenhausbesuchen) verwendet, um Erkenntnisse zu klassifizieren, zusammenzufassen und Erkenntnisse zu gewinnen. Medizinisches Personal, wie Ärzte, Gesundheitsverwalter oder Techniker, unterscheidet sich in Bezug auf Fachwissen und Sichtweisen. Aufgrund der Subjektivität zwischen diesen medizinischen Fachkräften besteht bei kleineren Schulungs- und Testdatensätzen die Gefahr von Verzerrungen. Um dieses Risiko zu minimieren, empfehlen wir die folgenden bewährten Methoden:
-
Wenn Sie eine vortrainierte LLM-Lösung verwenden, stellen Sie sicher, dass Sie über eine ausreichende Menge an Testdaten verfügen. Die Testdaten sollten exakt mit den tatsächlichen medizinischen Daten übereinstimmen oder ihnen sehr ähnlich sein. Je nach Aufgabe kann dies zwischen 20 und mehr als 100 Datensätzen liegen.
-
Sammeln Sie bei der Feinabstimmung eines LLM eine ausreichende Anzahl von markierten (Ground-Truth-Datensätzen) aus einer Vielzahl SMEs von medizinischen Zielgebieten. Ein allgemeiner Ausgangspunkt sind mindestens 100 qualitativ hochwertige Datensätze, und wir empfehlen nicht mehr als 20 Datensätze von jedem KMU. Angesichts der Komplexität der Aufgabe und Ihrer Akzeptanzkriterien für die Genauigkeit sind jedoch möglicherweise mehr Datensätze erforderlich.
-
Falls es für Ihren medizinischen Anwendungsfall erforderlich ist, sollten Sie Leitplanken implementieren und Datenverzerrungen und Fairness messen. Stellen Sie beispielsweise sicher, dass das LLM Fehldiagnosen aufgrund von Rassenprofilen von Patienten verhindert. Weitere Informationen finden Sie im Sicherheit und Leitplanken Abschnitt dieses Handbuchs.
Viele KI-Forschungs- und Entwicklungsunternehmen, wie Anthropic, haben in ihren Gründungsmodellen bereits Leitplanken implementiert, um Toxizität zu vermeiden. Mithilfe der Toxizitätserkennung können Sie die Eingabeaufforderungen und die ausgegebenen Antworten von überprüfen. LLMs Weitere Informationen finden Sie unter Toxizitätserkennung in der Amazon Comprehend Comprehend-Dokumentation.
Bei jeder generativen KI-Aufgabe besteht das Risiko einer Halluzination. Sie können dieses Risiko mindern, indem Sie NLP-Aufgaben wie die Klassifizierung ausführen. Sie können auch fortgeschrittenere Techniken verwenden, z. B. Metriken zur Textähnlichkeit. BertScore
Metriken für medizinische NLP-Aufgaben
Sie können quantifizierbare Metriken erstellen, nachdem Sie Ground-Truth-Daten und von KMU bereitgestellte Labels für Schulungen und Tests erstellt haben. Die Überprüfung der Qualität durch qualitative Prozesse wie Stresstests und die Überprüfung der LLM-Ergebnisse ist hilfreich für eine schnelle Entwicklung. Metriken dienen jedoch als quantitative Benchmarks, die future LLM-Operationen unterstützen, und dienen als Leistungsmaßstäbe für jede Produktionsversion.
Es ist entscheidend, die medizinische Aufgabe zu verstehen. Metriken werden in der Regel einer der folgenden allgemeinen NLP-Aufgaben zugeordnet:
-
Textklassifizierung — Das LLM kategorisiert den Text in eine oder mehrere vordefinierte Kategorien, basierend auf der Eingabeaufforderung und dem bereitgestellten Kontext. Ein Beispiel ist die Klassifizierung einer Schmerzkategorie anhand einer Schmerzskala. Beispiele für Metriken zur Textklassifizierung sind:
-
Erkennung benannter Entitäten (NER) — Bei der Erkennung benannter Entitäten, auch Textextraktion genannt, werden benannte Entitäten, die in unstrukturiertem Text erwähnt werden, lokalisiert und in vordefinierte Kategorien eingeteilt. Ein Beispiel ist das Extrahieren der Namen von Medikamenten aus Patientenakten. Beispiele für NER-Metriken sind:
-
Generierung — Das LLM generiert neuen Text, indem es die Eingabeaufforderung und den bereitgestellten Kontext verarbeitet. Die Generierung umfasst Zusammenfassungsaufgaben oder Aufgaben zur Beantwortung von Fragen. Beispiele für Generierungsmetriken sind:
-
Rückruforientiertes Unterstudium zur Bewertung von Gisting (ROUGE)
-
Metrik zur Bewertung von Übersetzungen mit Explicit (METEOR) ORdering
-
Zweisprachige Evaluierung (BLEU) (
für Übersetzungen) -
Abstand zwischen Zeichenketten
, auch bekannt als Kosinusähnlichkeit
-