Daten verarbeiten - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Daten verarbeiten

Verwenden Sie Amazon SageMaker Processing SageMaker, um Daten zu analysieren und Machine-Learning-Modelle auf Amazon auszuwerten. Mit der Verarbeitung können Sie eine vereinfachte, verwaltete Erfahrung in verwenden, SageMaker um Ihre Datenverarbeitungs-Workloads auszuführen, z. B. Feature-Engineering, Datenvalidierung, Modellbewertung und Modellinterpretation. Sie können die Amazon SageMaker Processing APIs auch während der Experimentierungsphase und nach der Bereitstellung des Codes in der Produktion verwenden, um die Leistung zu bewerten.


            Ausführen eines Verarbeitungsauftrags.

Das obige Diagramm zeigt, wie Amazon einen Verarbeitungsauftrag SageMaker aktiviert. Amazon SageMaker nimmt Ihr Skript, kopiert Ihre Daten aus Amazon Simple Storage Service (Amazon S3) und ruft dann einen Verarbeitungscontainer ab. Das Verarbeitungscontainer-Image kann entweder ein in Amazon SageMaker integriertes Image oder ein von Ihnen bereitgestelltes benutzerdefiniertes Image sein. Die zugrunde liegende Infrastruktur für einen Verarbeitungsauftrag wird vollständig von Amazon verwaltet SageMaker. Cluster-Ressourcen werden für die Dauer Ihres Jobs bereitgestellt und nach Abschluss eines Auftrags bereinigt. Die Ausgabe des Processing-Auftrages wird im Amazon S3-Bucket gespeichert, den Sie angegeben haben.

Anmerkung

Die Eingabedaten müssen in einem Amazon S3-Bucket gespeichert sein. Alternativ können Sie Amazon Athena oder Amazon Redshift als Eingabequellen verwenden.

Tipp

Bewährte Methoden für verteiltes Rechnen für Schulung und Verarbeitung von Machine Learning (ML) im Allgemeinen finden Sie unter Verteiltes Computing mit SageMaker bewährten Methoden.

Verwenden von Amazon SageMaker Processing Sample Notebooks

Anhand von zwei Beispiel-Jupyter-Notebooks zeigen wir, wie Datenvorverarbeitung, Modellauswertung oder beides durchgeführt werden.

Ein Beispiel-Notebook, das zeigt, wie Sie scikit-learn-Skripte ausführen, um Datenvorverarbeitung und Modelltraining und -bewertung mit dem SageMaker Python SDK for Processing durchzuführen, finden Sie unter scikit-learn Processing. In diesem Notebook wird auch gezeigt, wie Sie einen eigenen benutzerdefinierten Container verwenden, um Verarbeitungslasten mit Python-Bibliotheken und anderen spezifischen Abhängigkeiten auszuführen.

Ein Beispiel-Notebook, das zeigt, wie Sie Amazon SageMaker Processing verwenden, um eine verteilte Datenvorverarbeitung mit Spark durchzuführen, finden Sie unter Verteilte Verarbeitung (Spark). Dieses Notebook zeigt auch, wie ein Regressionsmodell mit XGBoost mit dem vorverarbeiteten Dataset geschult wird.

Anweisungen zum Erstellen und Zugreifen auf Jupyter-Notebook-Instances, mit denen Sie diese Beispiele in ausführen können SageMaker, finden Sie unter Amazon- SageMaker Notebook-Instances. Nachdem Sie eine Notebook-Instance erstellt und geöffnet haben, wählen Sie die Registerkarte SageMaker Beispiele, um eine Liste aller SageMaker Beispiele anzuzeigen. Zum Öffnen eines Notebooks wählen Sie die Registerkarte Verwenden und dann Kopie erstellen aus.

Überwachen von Amazon SageMaker -Verarbeitungsaufträgen mit CloudWatch Protokollen und Metriken

Amazon SageMaker Processing stellt Amazon- CloudWatch Protokolle und -Metriken zur Überwachung von Verarbeitungsaufträgen bereit. CloudWatch stellt CPU, GPU, Arbeitsspeicher, GPU-Speicher und Datenträgermetriken sowie Ereignisprotokollierung bereit. Weitere Informationen finden Sie unter Überwachen von Amazon SageMaker mit Amazon CloudWatch und Protokollieren von Amazon SageMaker Events mit Amazon CloudWatch.