Verarbeiten von Daten - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verarbeiten von Daten

Verwenden Sie Amazon SageMaker Processing, um Daten zu analysieren und Machine-Learning-Modelle auszuwerten. Mit Processing können Sie auf SageMaker eine vereinfachte, verwaltete Erfahrung verwenden, um Ihre Datenverarbeitungslasten wie Feature-Engineering, Datenvalidierung, Modellauswertung und -interpretation auszuführen. Sie können die Amazon SageMaker Processing -APIs auch während der Experimentierphase und nach der Bereitstellung des Codes in der Produktion verwenden, um die Leistung zu bewerten.


            Ausführen eines Verarbeitungsauftrags.

Das vorangehende Diagramm zeigt, wie Amazon SageMaker einen Verarbeitungsauftrag hochdreht. Amazon SageMaker nimmt Ihr Skript ab, kopiert Ihre Daten aus Amazon Simple Storage Service (Amazon S3) und zieht dann einen Verarbeitungscontainer ab. Das Verarbeitungscontainerbild kann entweder ein eingebautes Bild von Amazon SageMaker oder ein benutzerdefiniertes Bild sein, das Sie bereitstellen. Die zugrunde liegende Infrastruktur für einen Verarbeitungsauftrag wird vollständig von Amazon SageMaker verwaltet. Clusterressourcen werden für die Dauer Ihres Auftrags bereitgestellt und nach Abschluss eines Auftrags bereinigt. Die Ausgabe des Verarbeitungsauftrags wird in dem von Ihnen angegebenen Amazon S3 Bucket gespeichert.

Anmerkung

Ihre Daten müssen in einem Amazon S3 Bucket gespeichert sein.

Verwenden von Amazon SageMaker Beispiel-Notebooks

Anhand von zwei Beispiel-Jupyter-Notebooks zeigen wir, wie Datenvorverarbeitung, Modellauswertung oder beides durchgeführt werden.

Ein Beispiel-Notebook, das zeigt, wie scikit-learn-Skripte zur Datenvorverarbeitung, Modellschulung und -evaluierung mit dem SageMaker Python SDK für Processing ausgeführt werden, finden Sie unterscikit-learn Verarbeitungaus. In diesem Notebook wird auch gezeigt, wie Sie einen eigenen benutzerdefinierten Container verwenden, um Verarbeitungslasten mit Python-Bibliotheken und anderen spezifischen Abhängigkeiten auszuführen.

Ein Beispiel-Notebook, das zeigt, wie Amazon SageMaker Processing zur verteilten Datenvorverarbeitung mit Spark verwendet wird, finden Sie unterVerteilte Verarbeitung (Spark)aus. Dieses Notebook zeigt auch, wie ein Regressionsmodell mit XGBoost mit dem vorverarbeiteten Dataset geschult wird.

Anweisungen zum Erstellen und Zugreifen auf Jupyter-Notebook-Instances, die Sie verwenden können, um diese Beispiele in SageMaker auszuführen, finden Sie unterVerwenden von Amazon SageMaker Notebook-aus. Nach dem Erstellen und Öffnen einer Notebook-Instance wählen Sie dieBeispiele für SageMakerauf, um eine Liste aller SageMaker Beispiele anzuzeigen. Zum Öffnen eines Notebooks wählen Sie die Registerkarte Use (Verwenden) und dann Create copy (Kopie erstellen) aus.

Überwachung von Amazon SageMaker Verarbeitungsaufträgen mit CloudWatch Logs und -Metriken

Amazon SageMaker Processing bietet Amazon CloudWatch Protokolle und Metriken zur Überwachung von Verarbeitungsaufträgen. CloudWatch stellt Metriken für CPU, GPU, Arbeitsspeicher, GPU-Speicher und Festplattenmetriken sowie Ereignisprotokollierung bereit. Weitere Informationen erhalten Sie unter Überwachen von Amazon SageMaker mit Amazon CloudWatch und Amazon-SageMaker-Ereignisse mit Amazon CloudWatch protokollieren.