Verarbeiten von Daten - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verarbeiten von Daten

Verwenden Sie Amazon SageMaker Processing, um auf Amazon SageMaker zu analysieren und Machine-Learning-Modelle auszuwerten. Mit Processing können Sie eine vereinfachte, verwaltete Erfahrung auf SageMaker verwenden, um Ihre Datenverarbeitungslasten wie Feature-Engineering, Datenvalidierung, Modellauswertung und Modellinterpretation auszuführen. Sie können die Amazon SageMaker SageMaker-Verarbeitung -APIs auch während der Experimentierphase und nach der Bereitstellung des Codes in der Produktion verwenden, um die Leistung zu beurteilen.


            Ausführen eines Verarbeitungsauftrags.

Das vorhergehende Diagramm zeigt, wie Amazon SageMaker einen Verarbeitungsauftrag abwickelt. Amazon SageMaker nimmt Ihr Skript, kopiert Ihre Daten aus Amazon Simple Storage Service (Amazon S3) und zieht dann einen Verarbeitungscontainer. Das Verarbeitungs-Container-Image kann entweder ein in Amazon SageMaker integriertes Bild oder ein benutzerdefiniertes Bild sein, das Sie bereitstellen. Die zugrunde liegende Infrastruktur für einen Verarbeitungsauftrag wird vollständig von Amazon SageMaker verwaltet. Clusterressourcen werden für die Dauer Ihres Jobs bereitgestellt und nach Abschluss eines Auftrags bereinigt. Die Ausgabe des Verarbeitungsauftrags wird in dem Amazon S3 S3-Bucket gespeichert, den Sie angegeben haben.

Anmerkung

Ihre Eingabedaten müssen in einem Amazon S3 S3-Bucket gespeichert sein. Alternativ können Sie Amazon Athena oder Amazon Redshift als Eingangsquellen verwenden.

Verwenden von Beispiel-Notebooks für Amazon SageMaker SageMaker-Verarbeitung

Anhand von zwei Beispiel-Jupyter-Notebooks zeigen wir, wie Datenvorverarbeitung, Modellauswertung oder beides durchgeführt werden.

Ein Beispiel-Notebook, das zeigt, wie scikit-learn-Skripte zur Datenvorverarbeitung, Modellschulung und -evaluierung mit dem SageMaker Python SDK für Verarbeitung ausgeführt werden, finden Sie unterscikit-learn Verarbeitungaus. In diesem Notebook wird auch gezeigt, wie Sie einen eigenen benutzerdefinierten Container verwenden, um Verarbeitungslasten mit Python-Bibliotheken und anderen spezifischen Abhängigkeiten auszuführen.

Ein Beispiel-Notebook, das zeigt, wie Amazon SageMaker Processing zur verteilten Datenvorverarbeitung mit Spark verwendet wird, finden Sie unterVerteilte Verarbeitung (Spark)aus. Dieses Notebook zeigt auch, wie ein Regressionsmodell mit XGBoost mit dem vorverarbeiteten Dataset geschult wird.

Anweisungen zum Erstellen und Zugreifen auf Jupyter-Notebook-Instances, die Sie zum Ausführen dieser Beispiele in SageMaker verwenden können, finden Sie unterVerwenden von Amazon SageMaker Notebook-Instancesaus. Nach dem Erstellen und Öffnen einer Notebook-Instance wählen SieBeispiele für SageMakerum eine Liste aller SageMaker-Beispiele anzuzeigen. Zum Öffnen eines Notebooks wählen Sie die Registerkarte Use (Verwenden) und dann Create copy (Kopie erstellen) aus.

Überwachung von Amazon SageMaker SageMaker-Verarbeiten mit CloudWatch Logs und -Metriken

Amazon SageMaker Processing stellt Amazon CloudWatch CloudWatch-Protokolle und Metriken zur Überwachung von Verarbeitungsaufträgen bereit. CloudWatch bietet CPU, GPU, Arbeitsspeicher, GPU-Speicher, Festplattenmetriken und Ereignisprotokollierung. Weitere Informationen erhalten Sie unter Überwachen von Amazon SageMaker mit Amazon CloudWatch und Amazon-SageMaker-Ereignisse mit Amazon CloudWatch protokollieren.