Überwachen Sie Biasdrift für Modelle in der Produktion - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überwachen Sie Biasdrift für Modelle in der Produktion

Amazon SageMaker Clarify Bias Monitoring hilft Datenwissenschaftlern und ML-Ingenieuren, Vorhersagen regelmäßig auf Verzerrungen zu überwachen. Während das Modell überwacht wird, können Kunden exportierbare Berichte und Grafiken anzeigen, in denen die Tendenz detailliert beschrieben wird SageMaker Erstellen und Konfigurieren von Warnungen in Amazon CloudWatch um Benachrichtigungen zu erhalten, wenn eine Abweichung über einem bestimmten Schwellenwert festgestellt wird. Verzerrungen können in bereitgestellten ML-Modellen eingeführt oder verschärft werden, wenn sich die Trainingsdaten von den Daten unterscheiden, die das Modell während der Bereitstellung sieht (d. h. die Live-Daten). Diese Art von Änderungen in der Live-Datenverteilung kann vorübergehend (z. B. aufgrund einiger kurzlebiger, realer Ereignisse) oder dauerhaft sein. In beiden Fällen kann es wichtig sein, diese Änderungen zu erkennen. Beispielsweise können die Ergebnisse eines Modells zur Vorhersage der Eigenheimpreise verzerrt werden, wenn die für das Training des Modells verwendeten Hypothekenzinsen von den aktuellen, realen Hypothekenzinsen abweichen. Mit Funktionen zur Erkennung von Verzerrungen in Model Monitor SageMaker erkennt Verzerrungen über einen bestimmten Schwellenwert hinaus und generiert automatisch Metriken, die Sie in anzeigen können SageMaker Studio und über Amazon CloudWatchWarnungen.

Im Allgemeinen wird die Messabweichung nur während der train-and-deploy Phase ist möglicherweise nicht ausreichend. Es ist möglich, dass sich nach der Bereitstellung des Modells die Verteilung der Daten, die das bereitgestellte Modell sieht (d. h. die Live-Daten), von der Datenverteilung im Trainingsdatensatz unterscheidet. Diese Änderung kann im Laufe der Zeit zu einer Verzerrung eines Modells führen. Die Änderung der Live-Datenverteilung kann vorübergehend (z. B. aufgrund eines kurzlebigen Verhaltens wie der Weihnachtszeit) oder dauerhaft sein. In beiden Fällen kann es wichtig sein, diese Änderungen zu erkennen und gegebenenfalls Maßnahmen zu ergreifen, um die Verzerrung zu verringern.

Um diese Änderungen zu erkennen, SageMaker Clarify bietet Funktionen zur kontinuierlichen Überwachung der Bias-Metriken eines bereitgestellten Modells und zum Auslösen automatisierter Warnungen, wenn die Metriken einen Schwellenwert überschreiten Nehmen Sie beispielsweise die DPPL-Verzerrungsmetriken. Geben Sie einen zulässigen Wertebereich an A =( amin​, einmax​), zum Beispiel ein Intervall von (-0.1, 0.1), zu dem DPPL während der Bereitstellung gehören sollte. Jede Abweichung von diesem Bereich sollte eineVerzerrung festgestelltWarnung. mit SageMaker Verdeutlichen Sie, dass Sie diese Überprüfungen in regelmäßigen Abständen durchführen können.

Sie können die Häufigkeit der Überprüfungen auf 2 Tage festlegen. Das bedeutet, dass SageMaker Clarify berechnet die DPPL-Metrik für Daten, die während eines 2-Tage-Fensters gesammelt wurden. In diesem Beispiel ist Dwinsind die Daten, die das Modell während des letzten 2-Tage-Fensters verarbeitet hat. Eine Warnung wird ausgegeben, wenn der DPPL-Wert bwin​berechnet auf Dwin​liegt außerhalb eines zulässigen Bereichs A. Dieser Ansatz zur Überprüfung, ob bwinliegt außerhalb von A kann etwas laut sein. Dwin​besteht möglicherweise aus sehr wenigen Stichproben und ist möglicherweise nicht repräsentativ für die Live-Datenverteilung. Der kleine Stichprobenumfang bedeutet, dass der Wert der systematischen Abweichung bwin​berechnet über Dwin​ist möglicherweise keine sehr robuste Schätzung. Tatsächlich sind sehr hohe (oder niedrige) Werte von bwinkann rein zufällig beobachtet werden. Sicherstellen, dass die aus den beobachteten Daten gezogenen Schlussfolgerungen Dwinsind statistisch signifikant, SageMaker Clarify verwendet Konfidenzintervalle. Insbesondere verwendet es die Normal Bootstrap Interval Methode, um ein Intervall C =( c) zu konstruierenmin, cmax) so dass SageMaker Clarify ist zuversichtlich, dass der über die vollständigen Live-Daten berechnete tatsächliche Bias-Wert mit hoher Wahrscheinlichkeit in C enthalten ist. Wenn sich nun das Konfidenzintervall C mit dem erlaubten Bereich A überschneidet, SageMaker Clarify interpretiert es als „es ist wahrscheinlich, dass der Bias-Metrikwert der Live-Datenverteilung innerhalb des zulässigen Bereichs liegt“. Wenn C und A disjunkt sind, SageMaker Clarify ist zuversichtlich, dass die Bias-Metrik nicht in A liegt, und löst einen Alarm aus.

Musterbuch für Modellmonitor

Amazon SageMaker Clarify bietet das folgende Beispielnotizbuch, das zeigt, wie Inferenzdaten in Echtzeit erfasst, eine Baseline zur Überwachung der sich entwickelnden Verzerrung erstellt und die Ergebnisse untersucht werden:

Dieses Notizbuch wurde für die Ausführung in Amazon verifiziert SageMaker Nur Studio Wenn Sie Anweisungen zum Öffnen eines Notebooks in Amazon benötigen SageMaker Studio, sieheErstellen oder öffnen Sie ein Amazon SageMaker Studio Notebook. Wenn Sie aufgefordert werden, einen Kernel auszuwählen, wählen SiePython 3 (Datenwissenschaft). Die folgenden Themen enthalten die Highlights der letzten beiden Schritte und enthalten Codebeispiele aus dem Beispielnotizbuch.