Überwachen der Feature-Attribution Drift für Modelle in der Produktion - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überwachen der Feature-Attribution Drift für Modelle in der Produktion

Eine Abweichung der Verteilung von Live-Daten für Modelle in der Produktion kann zu einer entsprechenden Abweichung der Feature-Attributionswerte führen, genauso wie dies bei der Überwachung von Bias-Metriken zu einer Neigung der Bias führen könnte. Amazon SageMaker Die Überwachung der Funktionszuordnung hilft Datenwissenschaftlern und ML-Technikern, Prognosen auf die Drift der Feature-Attribution regelmäßig zu überwachen. Während das Modell überwacht wird, können Kunden exportierbare Berichte und Diagramme mit Details zu Feature-Attributionen in SageMaker Studio- und Konfigurieren von Warnungen in Amazon CloudWatch um Benachrichtigungen zu erhalten, wenn festgestellt wird, dass die Zuordnungswerte über einen bestimmten Schwellenwert hinausgehen.

Um dies in einer bestimmten Situation zu veranschaulichen, sollten Sie ein hypothetisches Szenario für College-Zulassungen in Betracht ziehen. Angenommen, wir beobachten die folgenden (aggregierten) Feature-Attributionswerte in den Trainingsdaten und in den Live-Daten:

Hypothetisches Szenario für College-Zulassung
Funktion Zuordnung von Schulungsdaten Namensnennung in Live-Daten
SAT-Punktzahl 0,70 0.10
GPA 0.50 0.20
Klassen-Rang 0.05 0,70

Die Änderung von Trainingsdaten zu Live-Daten erscheint erheblich. Das Feature-Ranking hat sich komplett umgekehrt. Ähnlich wie bei der Bias-Drift können die Drifts der Feature-Attribution durch eine Änderung der Live-Datenverteilung verursacht werden und einen genaueren Blick auf das Modellverhalten der Live-Daten rechtfertigen. Auch hier besteht der erste Schritt in diesen Szenarien darin, einen Alarm auszulösen, dass eine Drift stattgefunden hat.

Wir können die Drift erkennen, indem wir vergleichen, wie sich das Ranking der einzelnen Funktionen von Trainingsdaten zu Live-Daten geändert hat. Wir sind nicht nur empfindlich auf Änderungen der Ranglistenreihenfolge, sondern auch sensibel auf den rohen Attribution-Score der Features reagieren. Angesichts zweier Funktionen, die in der Rangliste um die gleiche Anzahl von Positionen fallen, die von Training zu Live-Daten reichen, möchten wir beispielsweise sensibler auf das Feature reagieren, das einen höheren Zuordnungswert in den Trainingsdaten aufwies. In Anbetracht dieser Eigenschaften verwenden wir den NDCG (Normized Discounted Cumulative Gain) -Score (NDCG), um die Rankings der Feature-Attributionen von Trainings- und Live-Daten zu vergleichen.

Gehen Sie insbesondere davon aus, dass wir Folgendes haben:

  • F= [f1,..., fm]ist die Liste der Funktionen, die in Bezug auf ihre Attributionsergebnisse in den Trainingsdaten sortiert sindMio.ist die Gesamtanzahl der Funktionen. Zum Beispiel in unserem FallF= [SAT-Score, GPA, Klassenrang].

  • a (f)ist eine Funktion, die den Feature-Attribution-Score für die Trainingsdaten eines Features zurückgibtfaus. Beispiel,ein(SAT-Score) = 0,70.

  • F′= [f′1,..., f′m]ist die Liste der Funktionen, die in Bezug auf ihre Attributionsergebnisse in den Live-Daten sortiert sind. Beispiel,F′= [Klassenrang, GPA, SAT-Score].

Dann können wir die NDCG wie folgt berechnen:

        nDCG=DCG/idCG

mit

  • DCG =1Mio.ein(f'i) /log2​(ich+1)

  • iDCG =1Mio.ein(fi) /log2​(ich+1)

Die Menge DCG misst, ob Features mit hoher Zuordnung in den Trainingsdaten auch in der Feature-Attribution, die auf den Live-Daten berechnet wird, höher eingestuft werden. Die Menge iDCG misst dieidealer Punktzahlund es ist nur ein Normalisierungsfaktor, um sicherzustellen, dass die endgültige Menge im Bereich [0, 1] liegt, wobei 1 der bestmögliche Wert ist. Ein NDCG-Wert von 1 bedeutet, dass das Ranking der Feature-Attribution in den Live-Daten mit dem in den Trainingsdaten identisch ist. In diesem speziellen Beispiel beträgt der NDCG-Wert 0,69, da sich das Ranking einigermaßen verändert hat.

In : SageMaker Klären Sie, wenn der NDCG-Wert unter 0,90 liegt, geben wir automatisch eine Warnung aus.

Model Monitor Beispiel-Notebooks

SageMaker Clarify bietet das folgende Beispiel-Notizbuch, das zeigt, wie Sie Echtzeit-Inferenzdaten erfassen, eine Baseline erstellen, um sich entwickelnde Voreingenommenheit zu überwachen und die Ergebnisse zu überprüfen:

Dieses Notebook wurde überprüft, dass es in ausgeführt wird SageMaker Nur Studio. Wenn Sie Anweisungen zum Öffnen eines Notebooks in benötigen SageMaker Studio, sieheErstellen oder öffnen Sie ein Amazon SageMaker Studio-Notebookaus. Wenn Sie aufgefordert werden, einen Kernel auszuwählen, wählen SiePython 3 (Data Science)aus. Die folgenden Themen enthalten die Highlights der letzten beiden Schritte und enthalten Codebeispiele aus dem Beispiel-Notizbuch.