Wie funktioniert die Datenverarbeitung in Data Wrangler?
Bei der interaktiven Arbeit mit Daten in einem Datenfluss von Amazon SageMaker Data Wrangler wendet Amazon SageMaker Canvas die Transformationen nur auf einen Beispieldatensatz an, damit Sie eine Vorschau anzeigen können. Nachdem Sie Ihren Datenfluss in SageMaker Canvas fertiggestellt haben, können Sie alle Ihre Daten verarbeiten und an einem für Ihre Machine-Learning-Workflows geeigneten Ort speichern.
Nachdem Sie die Transformation Ihrer Daten in Data Wrangler abgeschlossen haben, stehen Ihnen mehrere Optionen zur Verfügung:
-
Erstellen eines Modells Sie können ein Canvas-Modell erstellen, bei dem Sie direkt mit der Erstellung eines Modells mit Ihren vorbereiteten Daten beginnen. Sie können ein Modell entweder nach der Verarbeitung Ihres gesamten Datensatzes erstellen oder indem Sie nur die Beispieldaten exportieren, mit denen Sie in Data Wrangler gearbeitet haben. Canvas speichert Ihre verarbeiteten Daten (entweder den gesamten Datensatz oder die Beispieldaten) als Canvas-Datensatz.
Wir empfehlen Ihnen, Ihre Beispieldaten für schnelle Iterationen zu verwenden, jedoch Ihre gesamten Daten zu nutzen, wenn Sie Ihr endgültiges Modell trainieren möchten. Beim Erstellen tabellarischer Modelle werden Datensätze, die größer als 5 GB sind, automatisch auf 5 GB heruntergerechnet. Bei Zeitreihen-Prognosemodellen werden Datensätze, die größer als 30 GB sind, auf 30 GB heruntergerechnet.
Weitere Informationen zum Erstellen eines Modells finden Sie unter So funktionieren benutzerdefinierte Modelle.
-
Exportieren Sie die Daten. Sie können Ihre Daten exportieren, um sie in Machine-Learning-Workflows zu verwenden. Wenn Sie sich für den Export Ihrer Daten entscheiden, stehen Ihnen mehrere Optionen zur Verfügung:
-
Sie können Ihre Daten in der Canvas-Anwendung als Datensatz speichern. Weitere Informationen zu den unterstützten Dateitypen für Canvas-Datensätze und zusätzlichen Anforderungen beim Importieren von Daten in Canvas finden Sie unter Erstellen eines Datensatzes.
-
Sie können Ihre Daten in Amazon S3 speichern. Abhängig von der verfügbaren Speicherkapazität von Canvas werden Ihre Daten in der Anwendung verarbeitet und anschließend in Amazon S3 exportiert. Wenn die Größe Ihres Datensatzes das übersteigt, was Canvas verarbeiten kann, verwendet Canvas standardmäßig einen EMR-Serverless-Auftrag, um auf mehrere Rechen-Instances zu skalieren, Ihren gesamten Datensatz zu verarbeiten und ihn nach Amazon S3 zu exportieren. Sie können einen SageMaker-Verarbeitungsauftrag auch manuell konfigurieren, um eine detailliertere Kontrolle über die zur Verarbeitung Ihrer Daten verwendeten Rechenressourcen zu erhalten.
-
-
Exportieren Sie einen Datenfluss. Es könnte sinnvoll sein, den Code für Ihren Datenfluss zu speichern, damit Sie Ihre Transformationen außerhalb von Canvas ändern oder ausführen können. Canvas bietet Ihnen die Möglichkeit, Ihre Datenflusstransformationen als Python-Code in einem Jupyter Notebook zu speichern, das Sie dann nach Amazon S3 exportieren können, um es an anderer Stelle in Ihren Machine-Learning-Workflows zu verwenden.
Wenn Sie Ihre Daten aus einem Datenfluss exportieren und entweder als Canvas-Datensatz oder in Amazon S3 speichern, erstellt Canvas einen neuen Zielknoten in Ihrem Datenfluss. Dieser Endknoten zeigt Ihnen, wo Ihre verarbeiteten Daten gespeichert werden. Sie können Ihrem Fluss zusätzliche Zielknoten hinzufügen, wenn Sie mehrere Exportvorgänge durchführen möchten. Beispielsweise können Sie die Daten aus verschiedenen Punkten Ihres Datenflusses exportieren, um nur einige der Transformationen anzuwenden, oder Sie können transformierte Daten an verschiedene Amazon-S3-Speicherorte exportieren. Weitere Informationen zum Hinzufügen oder Bearbeiten eines Zielknotens finden Sie unter Hinzufügen von Zielknoten und Bearbeiten eines Zielknotens.
Weitere Informationen zum Einrichten eines Zeitplans mit Amazon EventBridge für die automatische Verarbeitung und den Export Ihrer Daten nach einem Zeitplan finden Sie unter Erstellen eines Zeitplans für die automatische Verarbeitung neuer Daten.