Überwachen Sie Verzerrungen bei Modellen in der Produktion - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überwachen Sie Verzerrungen bei Modellen in der Produktion

Amazon SageMaker Clarify Bias Monitoring hilft Datenwissenschaftlern und ML-Technikern dabei, Prognosen regelmäßig auf Verzerrungen zu überprüfen. Während das Modell überwacht wird, können Kunden exportierbare Berichte und Grafiken mit detaillierten Angaben zu Verzerrungen in SageMaker Studio einsehen und in Amazon Warnmeldungen konfigurieren, sodass sie Benachrichtigungen erhalten CloudWatch , wenn Abweichungen festgestellt werden, die einen bestimmten Schwellenwert überschreiten. Verzerrungen können in bereitgestellten ML-Modellen eingeführt oder verstärkt werden, wenn sich die Schulöungsdaten von den Daten unterscheiden, die das Modell während der Bereitstellung sieht (d. h. die Live-Daten). Solche Änderungen in der Live-Datenverteilung können vorübergehend (z. B. aufgrund kurzlebiger, realer Ereignisse) oder dauerhaft sein. In beiden Fällen kann es wichtig sein, diese Änderungen zu erkennen. Beispielsweise können die Ergebnisse eines Modells zur Vorhersage von Eigenheimpreisen verzerrt werden, wenn die Hypothekenzinsen, die für das Modell verwendet wurden, von den aktuellen, realen Hypothekenzinsen abweichen. Mit den Funktionen zur Erkennung von Verzerrungen in Model Monitor werden automatisch Metriken generiert, die Sie in SageMaker Studio und über CloudWatch Amazon-Benachrichtigungen anzeigen können, wenn Abweichungen über einen bestimmten Schwellenwert hinaus SageMaker erkannt werden.

Im Allgemeinen ist es möglicherweise nicht ausreichend, Verzerrungen nur während der train-and-deploy Phase zu messen. Es ist möglich, dass sich die Verteilung der Daten, die das bereitgestellte Modell sieht (d. h. die Live-Daten), nach der Bereitstellung des Modells von der Datenverteilung im Trainingsdatensatz unterscheidet. Diese Änderung kann im Laufe der Zeit zu Verzerrungen in einem Modell führen. Die Änderung der Live-Datenverteilung kann vorübergehend (z. B. aufgrund kurzlebiger Verhaltensweisen wie der Weihnachtszeit) oder dauerhaft sein. In beiden Fällen kann es wichtig sein, diese Änderungen zu erkennen und gegebenenfalls Maßnahmen zu ergreifen, um die Verzerrung zu verringern.

Um diese Änderungen zu erkennen, bietet SageMaker Clarify Funktionen zur kontinuierlichen Überwachung der Verzerrungsmetriken eines bereitgestellten Modells und zur Ausgabe automatisierter Warnmeldungen, wenn die Metriken einen Schwellenwert überschreiten. Betrachten Sie dazu die DPPL-Bias-Metrik. Geben Sie einen zulässigen Wertebereich A =( amin​,amax​) an, z. B. ein Intervall von (-0.1, 0.1), zu dem DPPL während der Bereitstellung gehören soll. Jede Abweichung von diesem Bereich sollte eine Warnung auslösen, wenn ein Fehler erkannt wurde. Mit SageMaker Clarify können Sie diese Prüfungen in regelmäßigen Abständen durchführen.

Sie können beispielsweise die Häufigkeit der Prüfungen auf 2 Tage festlegen. Das bedeutet, dass SageMaker Clarify die DPPL-Metrik anhand von Daten berechnet, die während eines Zeitfensters von 2 Tagen gesammelt wurden. In diesem Beispiel sind Dwin​ die Daten, die das Modell in den letzten zwei Tagen verarbeitet hat. Es wird eine Warnung ausgegeben, wenn der für Dwin​ berechnete DPPL-Wert bwin​ außerhalb eines zulässigen Bereichs A liegt. Dieser Ansatz zur Überprüfung, ob bwin außerhalb von A liegt, kann zu einem gewissen Rauschen führen. Dwin​ besteht möglicherweise aus sehr wenigen Stichproben und ist möglicherweise nicht repräsentativ für die Live-Datenverteilung. Aufgrund des geringen Stichprobenumfangs handelt es sich bei dem über Dwin​ berechneten Wert der Verzerrung bwin​ möglicherweise nicht um eine sehr robuste Schätzung. Tatsächlich können sehr hohe (oder niedrige) Werte von bwin rein zufällig beobachtet werden. Um sicherzustellen, dass die aus den beobachteten Daten D gezogenen Schlussfolgerungen statistisch signifikant win sind, verwendet SageMaker Clarify Konfidenzintervalle. Insbesondere verwendet es die Methode „Normales Bootstrap-Intervall“, um ein Intervall C =( cmin, cmax) zu konstruieren, sodass SageMaker Clarify sicher sein kann, dass der wahre Wert der Verzerrung, der über die gesamten Live-Daten berechnet wurde, mit hoher Wahrscheinlichkeit in C enthalten ist. Wenn sich nun das Konfidenzintervall C mit dem zulässigen Bereich A überschneidet, interpretiert SageMaker Clarify dies als „es ist wahrscheinlich, dass der metrische Biaswert der Live-Datenverteilung innerhalb des zulässigen Bereichs liegt“. Wenn C und A unzusammenhängend sind, ist SageMaker Clarify davon überzeugt, dass die Messgröße für die systematische Messabweichung nicht in A liegt, und gibt eine Warnung aus.

Model Monitor Beispiel-Notebooks

Amazon SageMaker Clarify stellt das folgende Beispiel-Notizbuch zur Verfügung, das zeigt, wie Inferenzdaten für einen Echtzeit-Endpunkt erfasst, eine Ausgangsbasis für die Überwachung sich entwickelnder Verzerrungen erstellt und die Ergebnisse überprüft werden:

Es wurde verifiziert, dass dieses Notizbuch nur in Amazon SageMaker Studio ausgeführt werden kann. Anweisungen zum Öffnen eines Notizbuchs in Amazon SageMaker Studio finden Sie unterErstellen oder öffnen Sie ein Amazon SageMaker Studio Classic-Notizbuch. Wenn Sie aufgefordert werden, einen Kernel auszuwählen, wählen Sie Python 3 (Data Science). Die folgenden Themen enthalten die Highlights der letzten beiden Schritte sowie Codebeispiele aus dem Beispiel-Notebook.