Verzerrungen bei Modellen in der Produktion

Amazon SageMaker Clarify Bias Monitoring hilft Datenwissenschaftlern und ML-Technikern dabei, Prognosen regelmäßig auf Verzerrungen zu überprüfen. Während das Modell überwacht wird, können Kunden exportierbare Berichte und Grafiken mit detaillierten Angaben zu Verzerrungen in SageMaker Studio einsehen und in Amazon Warnmeldungen konfigurieren, sodass sie Benachrichtigungen erhalten CloudWatch , wenn Abweichungen festgestellt werden, die einen bestimmten Schwellenwert überschreiten. Verzerrungen können in bereitgestellten ML-Modellen eingeführt oder verstärkt werden, wenn sich die Schulöungsdaten von den Daten unterscheiden, die das Modell während der Bereitstellung sieht (d. h. die Live-Daten). Solche Änderungen in der Live-Datenverteilung können vorübergehend (z. B. aufgrund kurzlebiger, realer Ereignisse) oder dauerhaft sein. In beiden Fällen kann es wichtig sein, diese Änderungen zu erkennen. Beispielsweise können die Ergebnisse eines Modells zur Vorhersage von Eigenheimpreisen verzerrt werden, wenn die Hypothekenzinsen, die für das Modell verwendet wurden, von den aktuellen, realen Hypothekenzinsen abweichen. Mit den Funktionen zur Erkennung von Verzerrungen in Model Monitor generiert SageMaker KI, wenn sie Verzerrungen erkennt, die einen bestimmten Schwellenwert überschreiten, automatisch Metriken, die Sie in SageMaker Studio und über CloudWatch Amazon-Benachrichtigungen anzeigen können.

Im Allgemeinen ist es möglicherweise nicht ausreichend, Verzerrungen nur während der train-and-deploy Phase zu messen. Es ist möglich, dass sich die Verteilung der Daten, die das bereitgestellte Modell sieht (d. h. die Live-Daten), nach der Bereitstellung des Modells von der Datenverteilung im Trainingsdatensatz unterscheidet. Diese Änderung kann im Laufe der Zeit zu Verzerrungen in einem Modell führen. Die Änderung der Live-Datenverteilung kann vorübergehend (z. B. aufgrund kurzlebiger Verhaltensweisen wie der Weihnachtszeit) oder dauerhaft sein. In beiden Fällen kann es wichtig sein, diese Änderungen zu erkennen und gegebenenfalls Maßnahmen zu ergreifen, um die Verzerrung zu verringern.

Um diese Änderungen zu erkennen, bietet SageMaker Clarify Funktionen zur kontinuierlichen Überwachung der Verzerrungsmetriken eines bereitgestellten Modells und zur Ausgabe automatisierter Warnmeldungen, wenn die Metriken einen Schwellenwert überschreiten. Betrachten Sie dazu die DPPL-Bias-Metrik. Geben Sie einen zulässigen Wertebereich A =( a_min,a_max) an, z. B. ein Intervall von (-0.1, 0.1), zu dem DPPL während der Bereitstellung gehören soll. Jede Abweichung von diesem Bereich sollte eine Warnung auslösen, wenn ein Fehler erkannt wurde. Mit SageMaker Clarify können Sie diese Prüfungen in regelmäßigen Abständen durchführen.

Sie können beispielsweise die Häufigkeit der Prüfungen auf 2 Tage festlegen. Das bedeutet, dass SageMaker Clarify die DPPL-Metrik anhand von Daten berechnet, die während eines Zeitfensters von 2 Tagen gesammelt wurden. In diesem Beispiel sind D_win die Daten, die das Modell in den letzten zwei Tagen verarbeitet hat. Es wird eine Warnung ausgegeben, wenn der für D_win berechnete DPPL-Wert b_win außerhalb eines zulässigen Bereichs A liegt. Dieser Ansatz zur Überprüfung, ob b_win außerhalb von A liegt, kann zu einem gewissen Rauschen führen. D_win besteht möglicherweise aus sehr wenigen Stichproben und ist möglicherweise nicht repräsentativ für die Live-Datenverteilung. Aufgrund des geringen Stichprobenumfangs handelt es sich bei dem über D_win berechneten Wert der Verzerrung b_win möglicherweise nicht um eine sehr robuste Schätzung. Tatsächlich können sehr hohe (oder niedrige) Werte von b_win rein zufällig beobachtet werden. Um sicherzustellen, dass die aus den beobachteten Daten D gezogenen Schlussfolgerungen statistisch signifikant _win sind, verwendet SageMaker Clarify Konfidenzintervalle. Insbesondere verwendet es die Methode „Normales Bootstrap-Intervall“, um ein Intervall C =( c_min, c_max) zu konstruieren, sodass SageMaker Clarify sicher sein kann, dass der wahre Wert der Verzerrung, der über die gesamten Live-Daten berechnet wurde, mit hoher Wahrscheinlichkeit in C enthalten ist. Wenn sich nun das Konfidenzintervall C mit dem zulässigen Bereich A überschneidet, interpretiert SageMaker Clarify dies als „es ist wahrscheinlich, dass der metrische Biaswert der Live-Datenverteilung innerhalb des zulässigen Bereichs liegt“. Wenn C und A unzusammenhängend sind, ist SageMaker Clarify davon überzeugt, dass die Messgröße für die systematische Messabweichung nicht in A liegt, und gibt eine Warnung aus.

Model Monitor Beispiel-Notebooks

Amazon SageMaker Clarify stellt das folgende Beispiel-Notizbuch zur Verfügung, das zeigt, wie Inferenzdaten für einen Echtzeit-Endpunkt erfasst, eine Ausgangsbasis für die Überwachung sich entwickelnder Verzerrungen erstellt und die Ergebnisse überprüft werden:

Überwachung von Verzerrungen und Abweichungen bei der Merkmalszuweisung Amazon SageMaker Clarify — Verwenden Sie Amazon SageMaker Model Monitor, um Verzerrungen und Abweichungen bei der Merkmalszuweisung im Laufe der Zeit zu überwachen.

Es wurde verifiziert, dass dieses Notizbuch nur in Amazon SageMaker Studio ausgeführt werden kann. Anweisungen zum Öffnen eines Notizbuchs in Amazon SageMaker Studio finden Sie unterErstellen oder öffnen Sie ein Amazon SageMaker Studio Classic-Notizbuch. Wenn Sie aufgefordert werden, einen Kernel auszuwählen, wählen Sie Python 3 (Data Science). Die folgenden Themen enthalten die Highlights der letzten beiden Schritte sowie Codebeispiele aus dem Beispiel-Notebook.

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Modellqualitätsmetriken und CloudWatch Amazon-Überwachung

Erstellen Sie eine Bias-Drift-Baseline