Verzerrungsabweichung bei Modellen in der Produktion überwachen - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verzerrungsabweichung bei Modellen in der Produktion überwachen

Amazon SageMaker Clarify Bias Monitoring hilft Datenwissenschaftlern und ML-Ingenieuren dabei, Prognosen regelmäßig auf Verzerrungen zu überprüfen. Während das Modell überwacht wird, können sich Kunden in SageMaker Studio exportierbare Berichte und Grafiken ansehen, in denen Verzerrungen detailliert beschrieben werden. Außerdem können sie in Amazon Warnmeldungen konfigurieren, CloudWatch um Benachrichtigungen zu erhalten, wenn ein bestimmter Schwellenwert überschritten wird. Verzerrungen können in eingesetzten ML-Modellen eingeführt oder verstärkt werden, wenn sich die Trainingsdaten von den Daten unterscheiden, die das Modell während der Bereitstellung sieht (d. h. den Live-Daten). Diese Art von Änderungen in der Live-Datenverteilung kann vorübergehend (z. B. aufgrund kurzlebiger, realer Ereignisse) oder dauerhaft sein. In beiden Fällen kann es wichtig sein, diese Änderungen zu erkennen. Beispielsweise können die Ergebnisse eines Modells zur Vorhersage von Eigenheimpreisen verzerrt werden, wenn die Hypothekenzinsen, mit denen das Modell trainiert wird, von den aktuellen, realen Hypothekenzinsen abweichen. Mit den Funktionen zur Erkennung von Verzerrungen in Model Monitor generiert Model Monitor automatisch Metriken, die Sie in SageMaker Studio und über CloudWatch Amazon-Benachrichtigungen einsehen können, wenn SageMaker diese einen bestimmten Schwellenwert überschreiten.

Im Allgemeinen ist es möglicherweise nicht ausreichend, die systematische Messabweichung nur während der train-and-deploy Phase zu messen. Es ist möglich, dass nach der Bereitstellung des Modells die Verteilung der Daten, die das bereitgestellte Modell sieht (d. h. die Live-Daten), von der Datenverteilung im Trainingsdatensatz abweicht. Diese Änderung könnte im Laufe der Zeit zu Verzerrungen in einem Modell führen. Die Änderung der Live-Datenverteilung kann vorübergehend (z. B. aufgrund eines kurzlebigen Verhaltens wie der Weihnachtszeit) oder dauerhaft sein. In beiden Fällen kann es wichtig sein, diese Veränderungen zu erkennen und gegebenenfalls Maßnahmen zu ergreifen, um die Verzerrung zu verringern.

Um diese Änderungen zu erkennen, bietet SageMaker Clarify Funktionen zur kontinuierlichen Überwachung der Verzerrungskennzahlen eines bereitgestellten Modells und zur Ausgabe automatisierter Warnmeldungen, wenn die Metriken einen Schwellenwert überschreiten. Betrachten Sie zum Beispiel die DPPL-Basmetrik. Geben Sie einen zulässigen Wertebereich A= (amin​, amax​) an, z. B. ein Intervall von (-0,1, 0,1), zu dem DPPL während der Bereitstellung gehören soll. Jede Abweichung von diesem Bereich sollte die Warnung „Verzerrung erkannt“ auslösen. Mit SageMaker Clarify können Sie diese Prüfungen in regelmäßigen Abständen durchführen.

Sie können beispielsweise die Häufigkeit der Überprüfungen auf 2 Tage festlegen. Das bedeutet, dass SageMaker Clarify die DPPL-Metrik anhand von Daten berechnet, die während eines Zeitfensters von 2 Tagen gesammelt wurden. In diesem Beispiel win sind D die Daten, die das Modell im letzten 2-Tage-Fenster verarbeitet hat. Eine Warnung wird ausgegeben, wenn der auf D win​ berechnete DPPL-Wert b außerhalb eines zulässigen Bereichs A win​ liegt. Dieser Ansatz zur Überprüfung, ob b außerhalb von A win liegt, kann etwas laut sein. D besteht win​ möglicherweise aus sehr wenigen Stichproben und ist möglicherweise nicht repräsentativ für die Live-Datenverteilung. Aufgrund der geringen Stichprobengröße handelt es sich bei dem für D win​ berechneten Wert der systematischen Messabweichung b win​ möglicherweise nicht um eine sehr robuste Schätzung. Tatsächlich win können sehr hohe (oder niedrige) Werte von b rein zufällig beobachtet werden. Um sicherzustellen, dass die aus den beobachteten Daten D gezogenen Schlüsse statistisch signifikant win sind, verwendet SageMaker Clarify Konfidenzintervalle. Insbesondere verwendet es die Methode Normal Bootstrap Interval, um ein Intervall C= (cmin, cmax) zu konstruieren, sodass Clarify sicher ist, dass der wahre Bias-Wert, der über die gesamten Live-Daten berechnet wird, mit hoher Wahrscheinlichkeit in C enthalten ist. SageMaker Wenn sich das Konfidenzintervall C nun mit dem zulässigen Bereich A überschneidet, SageMaker interpretiert Clarify es als „es ist wahrscheinlich, dass der metrische Messwert der Live-Datenverteilung innerhalb des zulässigen Bereichs liegt“. Wenn C und A unzusammenhängend sind, ist SageMaker Clarify sicher, dass die Bias-Metrik nicht in A liegt, und löst eine Warnung aus.

Model Monitor Musternotizbuch

Amazon SageMaker Clarify stellt das folgende Beispielnotizbuch zur Verfügung, das zeigt, wie Inferenzdaten für einen Echtzeit-Endpunkt erfasst, eine Ausgangsbasis für die Überwachung sich entwickelnder Verzerrungen erstellt und die Ergebnisse überprüft werden:

Es wurde verifiziert, dass dieses Notebook nur in Amazon SageMaker Studio läuft. Anweisungen zum Öffnen eines Notizbuchs in Amazon SageMaker Studio finden Sie unterEin Amazon SageMaker Studio-Notizbuch erstellen oder öffnen. Wenn Sie aufgefordert werden, einen Kernel auszuwählen, wählen Sie Python 3 (Data Science). Die folgenden Themen enthalten die wichtigsten Punkte der letzten beiden Schritte sowie Codebeispiele aus dem Beispielnotizbuch.