Überwachen der Datenqualität - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überwachen der Datenqualität

Die Datenqualitätsüberwachung überwacht automatisch Modelle für Machine Learning (ML) in der Produktion und benachrichtigt Sie, wenn Probleme mit der Datenqualität auftreten. ML-Modelle in der Produktion müssen Vorhersagen zu realen Daten machen, die nicht so sorgfältig wie die meisten Trainings-Datasets geordnet sind. Wenn die statistische Beschaffenheit der Daten, die Ihr Modell während der Produktion erhält, von der Beschaffenheit der Basisdaten, auf denen es trainiert wurde, abweicht, verliert das Modell an Genauigkeit bei seinen Vorhersagen. Amazon SageMaker Model Monitor verwendet Regeln, um Datenabweichungen zu erkennen und Sie zu warnen, wenn sie auftreten. Gehen Sie folgendermaßen vor, um die Datenqualität zu überwachen:

  • Aktivieren der Datenerfassung. Dadurch werden Inferenzeingaben und -ausgaben von einem Echtzeit-Inferenzendpunkt oder einem Batch-Transformationsauftrag erfasst und die Daten in Amazon S3 gespeichert. Weitere Informationen finden Sie unter Datenerfassung.

  • Erstellen einer Baseline. In diesem Schritt führen Sie einen Baseline-Auftrag aus, der einen von Ihnen bereitgestellten Eingabe-Datensatz analysiert. Berechnen Sie Baseline-Schema-Einschränkungen und -Statistiken für jede Feature mit Deequ, einer Open-Source-Bibliothek, die auf Apache Spark basiert und zur Messung der Datenqualität in großen Datasets verwendet wird. Weitere Informationen finden Sie unter Erstellen einer Baseline.

  • Definieren und planen Sie Aufträge zur Überwachung der Datenqualität. Spezifische Informationen und Codebeispiele für Aufträge zur Überwachung der Datenqualität finden Sie unter Planen Sie Aufträge zur Überwachung der Datenqualität. Allgemeine Informationen zu Überwachungsaufträgen finden Sie unter Zeitplan für Überwachungsaufgaben.

    • Verwenden Sie optional Vor- und Nachverarbeitungsskripten, um die Daten aus Ihrer Datenqualitätsanalyse zu transformieren. Weitere Informationen finden Sie unter Vorverarbeitung und Nachbearbeitung.

  • Messwerte zur Datenqualität anzeigen. Weitere Informationen finden Sie unter Schema für Statistiken (Datei statistics.json).

  • Integrieren Sie die Überwachung der Datenqualität in Amazon CloudWatch. Weitere Informationen finden Sie unter CloudWatch Metriken.

  • Interpretieren Sie die Ergebnisse eines Überwachungsauftrags. Weitere Informationen finden Sie unter Interpretieren von Ergebnissen.

  • Verwenden Sie SageMaker Studio, um die Überwachung der Datenqualität zu aktivieren und Ergebnisse zu visualisieren, wenn Sie einen Echtzeit-Endpunkt verwenden. Weitere Informationen finden Sie unter Visualisieren von Ergebnissen für Echtzeit-Endpunkte in Amazon SageMaker Studio.

Anmerkung

Model Monitor berechnet Modellmetriken und Statistiken nur anhand von Tabellendaten. Beispielsweise kann ein Bildklassifizierungsmodell, das Bilder als Eingabe verwendet und ein auf diesem Bild basierendes Etikett ausgibt, weiterhin überwacht werden. Model Monitor wäre in der Lage, Metriken und Statistiken für die Ausgabe zu berechnen, nicht für die Eingabe.