Überwachen der Datenqualität - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Überwachen der Datenqualität

Die Datenqualitätsüberwachung überwacht automatisch die Machine Learning-Modelle (ML) -Modelle in der Produktion und benachrichtigt Sie bei Auftreten von Problemen mit der Datenqualität. ML-Modelle in der Produktion müssen Vorhersagen zu realen Daten machen, die nicht so sorgfältig wie die meisten Trainings-Datasets geordnet sind. Wenn die statistische Natur der Daten, die Ihr Modell während der Produktion empfängt, von der Natur der Basisdaten ableitet, für die es trainiert wurde, beginnt das Modell die Genauigkeit seiner Vorhersagen zu verlieren. Amazon SageMaker Model Monitor verwendet Regeln, um Datenabweichungen zu erkennen und warnt Sie, wenn dies passiertaus. Gehen Sie folgendermaßen vor, um die Datenqualität zu überwachen:

  • Aktivieren der Datenerfassung. Dies erfasst Inferenzeingabe und -ausgabe von einem Echtzeit-Inferenzendpunkt und speichert die Daten in Amazon S3. Weitere Informationen finden Sie unter Erfassen von Daten.

  • Erstellen einer Baseline. In diesem Schritt führen Sie einen Baseline-Job aus, der ein von Ihnen bereitgestelltes Eingabe-Dataset analysiert. Die Baseline berechnet Baseline-Schemaeinschränkungen und Statistiken für jedes Feature mitDeequ, einer Open-Source-Bibliothek, die auf Apache Spark basiert und zur Messung der Datenqualität in großen Datasets verwendet wird. Weitere Informationen finden Sie unter Erstellen einer Baseline.

  • Definieren und planen Sie Aufträge zur Überwachung der Datenqualität. Weitere Informationen finden Sie unter Planen von Überwachungsjobs.

  • Zeigen Sie Kennzahlen zur Datenqualität an. Weitere Informationen finden Sie unter Schema für Statistiken (Datei statistics.json).

  • Integrieren Sie die Überwachung der Datenqualität in Amazon CloudWatch. Weitere Informationen finden Sie unter CloudWatch-Metriken.

  • Interpretieren Sie die Ergebnisse eines Überwachungsauftrags. Weitere Informationen finden Sie unter Interpretieren von Ergebnissen.

  • Verwenden von SageMaker Studio, um Datenqualitätsüberwachung zu ermöglichen und Ergebnisse zu visualisieren. Weitere Informationen finden Sie unter Visualisieren Sie Ergebnissen in Amazon SageMaker Studio.

Anmerkung

Amazon SageMaker Model Monitor unterstützt derzeit nur Tabellendaten.