Überwachen Sie Verzerrungen bei Modellen in der Produktion - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überwachen Sie Verzerrungen bei Modellen in der Produktion

Amazon SageMaker Clarify Bias Monitoring hilft Datenwissenschaftlern und ML-Ingenieuren dabei, Vorhersagen auf Verzerrungen regelmäßig zu überwachen. Während das Modell überwacht wird, können Kunden exportierbare Berichte und Diagramme mit detaillierten Verzerrungen in SageMaker Studio anzeigen und Warnungen in Amazon so konfigurieren CloudWatch , dass sie Benachrichtigungen erhalten, wenn Verzerrungen erkannt werden, die einen bestimmten Schwellenwert überschreiten. Verzerrungen können in bereitgestellten ML-Modellen eingeführt oder verstärkt werden, wenn sich die Schulöungsdaten von den Daten unterscheiden, die das Modell während der Bereitstellung sieht (d. h. die Live-Daten). Solche Änderungen in der Live-Datenverteilung können vorübergehend (z. B. aufgrund kurzlebiger, realer Ereignisse) oder dauerhaft sein. In beiden Fällen kann es wichtig sein, diese Änderungen zu erkennen. Beispielsweise können die Ergebnisse eines Modells zur Vorhersage von Eigenheimpreisen verzerrt werden, wenn die Hypothekenzinsen, die für das Modell verwendet wurden, von den aktuellen, realen Hypothekenzinsen abweichen. Wenn mit den Funktionen zur Erkennung von Verzerrungen in Model Monitor Verzerrungen über einen bestimmten Schwellenwert hinaus SageMaker erkennt, werden automatisch Metriken generiert, die Sie in SageMaker Studio und über Amazon CloudWatch-Warnungen anzeigen können.

Im Allgemeinen reicht die Messung von Verzerrungen nur während der - train-and-deploy Phase möglicherweise nicht aus. Es ist möglich, dass sich die Verteilung der Daten, die das bereitgestellte Modell sieht (d. h. die Live-Daten), nach der Bereitstellung des Modells von der Datenverteilung im Trainingsdatensatz unterscheidet. Diese Änderung kann im Laufe der Zeit zu Verzerrungen in einem Modell führen. Die Änderung der Live-Datenverteilung kann vorübergehend (z. B. aufgrund kurzlebiger Verhaltensweisen wie der Weihnachtszeit) oder dauerhaft sein. In beiden Fällen kann es wichtig sein, diese Änderungen zu erkennen und gegebenenfalls Maßnahmen zu ergreifen, um die Verzerrung zu verringern.

Um diese Änderungen zu erkennen, bietet SageMaker Clarify die Funktionalität, die Bias-Metriken eines bereitgestellten Modells kontinuierlich zu überwachen und automatische Warnungen auszulösen, wenn die Metriken einen Schwellenwert überschreiten. Betrachten Sie dazu die DPPL-Bias-Metrik. Geben Sie einen zulässigen Wertebereich A =( amin​,amax​) an, z. B. ein Intervall von (-0.1, 0.1), zu dem DPPL während der Bereitstellung gehören soll. Jede Abweichung von diesem Bereich sollte eine Warnung auslösen, wenn ein Fehler erkannt wurde. Mit SageMaker Clarify können Sie diese Prüfungen in regelmäßigen Abständen durchführen.

Sie können beispielsweise die Häufigkeit der Prüfungen auf 2 Tage festlegen. Das bedeutet, dass SageMaker Clarify die DPPL-Metrik für Daten berechnet, die während eines zweitägigen Zeitfensters erfasst wurden. In diesem Beispiel sind Dwin​ die Daten, die das Modell in den letzten zwei Tagen verarbeitet hat. Es wird eine Warnung ausgegeben, wenn der für Dwin​ berechnete DPPL-Wert bwin​ außerhalb eines zulässigen Bereichs A liegt. Dieser Ansatz zur Überprüfung, ob bwin außerhalb von A liegt, kann zu einem gewissen Rauschen führen. Dwin​ besteht möglicherweise aus sehr wenigen Stichproben und ist möglicherweise nicht repräsentativ für die Live-Datenverteilung. Aufgrund des geringen Stichprobenumfangs handelt es sich bei dem über Dwin​ berechneten Wert der Verzerrung bwin​ möglicherweise nicht um eine sehr robuste Schätzung. Tatsächlich können sehr hohe (oder niedrige) Werte von bwin rein zufällig beobachtet werden. Um sicherzustellen, dass die aus den beobachteten Daten D gezogenen Schlussfolgerungen statistisch signifikant winsind, verwendet SageMaker Clarify Konfidenzintervalle. Insbesondere wird die Methode Normales Bootstrap-Intervall verwendet, um ein Intervall C=(c min,c max) so zu erstellen, dass SageMaker Clarify sicher ist, dass der tatsächliche Bias-Wert, der für die vollständigen Live-Daten berechnet wird, mit hoher Wahrscheinlichkeit in C enthalten ist. Wenn sich das Konfidenzintervall C nun mit dem zulässigen Bereich A überschneidet, interpretiert SageMaker Clarify es als „es ist wahrscheinlich, dass der Bias-Metrikwert der Live-Datenverteilung innerhalb des zulässigen Bereichs liegt“. Wenn C und A getrennt sind, ist SageMaker Clarify sicher, dass die Bias-Metrik nicht in A liegt und eine Warnung auslöst.

Model Monitor Beispiel-Notebooks

Amazon SageMaker Clarify bietet das folgende Beispiel-Notebook, das zeigt, wie Inferenzdaten für einen Echtzeit-Endpunkt erfasst, eine Baseline zur Überwachung sich entwickelnder Verzerrungen erstellt und die Ergebnisse überprüft werden:

Dieses Notebook wurde so überprüft, dass es nur in Amazon SageMaker Studio ausgeführt wird. Anweisungen zum Öffnen eines Notebooks in Amazon SageMaker Studio finden Sie unter Erstellen oder Öffnen eines Amazon SageMaker Studio Classic Notebooks. Wenn Sie aufgefordert werden, einen Kernel auszuwählen, wählen Sie Python 3 (Data Science). Die folgenden Themen enthalten die Highlights der letzten beiden Schritte sowie Codebeispiele aus dem Beispiel-Notebook.