Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Evaluierung generativer KI-Lösungen für das Gesundheitswesen
Die Bewertung der von Ihnen entwickelten KI-Lösungen für das Gesundheitswesen ist entscheidend, um sicherzustellen, dass sie in realen medizinischen Umgebungen effektiv, zuverlässig und skalierbar sind. Verwenden Sie einen systematischen Ansatz, um die Leistung der einzelnen Komponenten der Lösung zu bewerten. Im Folgenden finden Sie eine Zusammenfassung der Methoden und Kennzahlen, die Sie zur Bewertung Ihrer Lösung verwenden können.
Themen
Bewertung der Extraktion von Informationen
Evaluieren Sie die Leistung von Informationsextraktionslösungen wie dem intelligenten Resume-Parser und dem benutzerdefinierten Entitäten-Extraktor. Sie können die Ausrichtung der Antworten dieser Lösungen anhand eines Testdatensatzes messen. Wenn Sie nicht über einen Datensatz verfügen, der vielseitige Talentprofile im Gesundheitswesen und Patientenakten abdeckt, können Sie mithilfe der Argumentationsfähigkeit eines LLM einen benutzerdefinierten Testdatensatz erstellen. Sie könnten beispielsweise ein Modell mit großen Parametern verwenden, wie Anthropic Claude Modelle, um einen Testdatensatz zu generieren.
Im Folgenden sind drei wichtige Kennzahlen aufgeführt, die Sie für die Bewertung der Modelle zur Informationsextraktion verwenden können:
-
Genauigkeit und Vollständigkeit — Mit diesen Kennzahlen wird bewertet, inwieweit die Ergebnisse die korrekten und vollständigen Informationen aus den Ground-Truth-Daten erfasst haben. Dabei wird sowohl die Richtigkeit der extrahierten Informationen als auch das Vorhandensein aller relevanten Details in den extrahierten Informationen überprüft.
-
Ähnlichkeit und Relevanz — Mit diesen Metriken werden die semantischen, strukturellen und kontextuellen Ähnlichkeiten zwischen den Ergebnissen und den Ground-Truth-Daten (die Ähnlichkeit) sowie der Grad bewertet, in dem das Ergebnis mit dem Inhalt, dem Kontext und der Absicht der Ground-Truth-Daten übereinstimmt und diese berücksichtigt (die Relevanz).
-
Angepasste Erinnerungs- oder Erfassungsrate — Diese Raten bestimmen empirisch, wie viele der aktuellen Werte in den Ground-Truth-Daten vom Modell korrekt identifiziert wurden. Die Rate sollte eine Strafe für alle falschen Werte beinhalten, die das Modell extrahiert.
-
Genauigkeitswert — Mithilfe des Präzisionswerts können Sie ermitteln, wie viele falsch positive Ergebnisse in den Prognosen im Vergleich zu den echten positiven Ergebnissen enthalten sind. Sie können beispielsweise Präzisionskennzahlen verwenden, um die Richtigkeit der extrahierten Fertigkeiten zu messen.
Evaluierung von RAG-Lösungen mit mehreren Retrievern
Um zu beurteilen, wie gut das System relevante Informationen abruft und wie effektiv es diese Informationen verwendet, um genaue und kontextbezogene Antworten zu generieren, können Sie die folgenden Kennzahlen verwenden:
-
Relevanz der Antwort — Messen Sie, wie relevant die generierte Antwort, die den abgerufenen Kontext verwendet, für die ursprüngliche Abfrage ist.
-
Kontextgenauigkeit — Beurteilen Sie anhand der insgesamt abgerufenen Ergebnisse den Anteil der abgerufenen Dokumente oder Textfragmente, die für die Anfrage relevant sind. Eine höhere Kontextgenauigkeit weist darauf hin, dass der Abrufmechanismus bei der Auswahl relevanter Informationen wirksam ist.
-
Zuverlässigkeit — Beurteilt, wie genau die generierte Antwort die Informationen im abgerufenen Kontext widerspiegelt. Mit anderen Worten, messen Sie, ob die Antwort den Quellinformationen entspricht.
Evaluierung einer Lösung mithilfe eines LLM
Sie können eine Technik namens LLM- verwendenas-a-judge, um die Textantworten Ihrer generativen KI-Lösung auszuwerten. Es beinhaltet die Verwendung LLMs zur Bewertung und Bewertung der Leistung von Modellergebnissen. Diese Technik nutzt die Funktionen von Amazon Bedrock, um Urteile zu verschiedenen Attributen wie Antwortqualität, Kohärenz, Einhaltung, Genauigkeit und Vollständigkeit menschlicher Präferenzen oder Ground-Truth-Daten abzugeben. Für eine umfassende Bewertung verwenden Sie chain-of-thought Techniken (CoT)
-
Paarweiser Vergleich — Geben Sie dem LLM-Gutachter eine medizinische Frage und mehrere Antworten, die durch verschiedene, iterative Versionen der von Ihnen erstellten RAG-Systeme generiert wurden. Bitten Sie den LLM-Evaluator, die beste Antwort auf der Grundlage von Antwortqualität, Kohärenz und Übereinstimmung mit der ursprünglichen Frage zu ermitteln.
-
Einstufung mit einer einzigen Antwort — Diese Technik eignet sich gut für Anwendungsfälle, in denen Sie die Genauigkeit der Kategorisierung bewerten müssen, z. B. bei der Klassifizierung von Behandlungsergebnissen, der Kategorisierung des Patientenverhaltens, der Wahrscheinlichkeit einer erneuten Aufnahme von Patienten und der Risikokategorisierung. Verwenden Sie den LLM-Evaluator, um die individuelle Kategorisierung oder Klassifikation isoliert zu analysieren und die darin enthaltenen Argumentation anhand von Ground-Truth-Daten zu bewerten.
-
Benotung anhand von Referenzen — Stellen Sie dem LLM-Gutachter eine Reihe von medizinischen Fragen zur Verfügung, die aussagekräftige Antworten erfordern. Erstellen Sie Beispielantworten auf diese Fragen, z. B. Referenzantworten oder ideale Antworten. Bitten Sie den LLM-Evaluator, die vom LLM generierte Antwort mit den Referenzantworten oder idealen Antworten zu vergleichen, und fordern Sie den LLM-Evaluator auf, die generierte Antwort auf Richtigkeit, Vollständigkeit, Ähnlichkeit, Relevanz oder andere Merkmale zu bewerten. Mit dieser Technik können Sie beurteilen, ob die generierten Antworten einer klar definierten Standardantwort oder einer beispielhaften Antwort entsprechen.