Bereiten Sie ML-Daten mit Amazon SageMaker Data Wrangler vor - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Bereiten Sie ML-Daten mit Amazon SageMaker Data Wrangler vor

Amazon SageMaker Data Wrangler (Data Wrangler) ist eine Funktion von SageMaker Studio, die eine End-to-End-Lösung zum Importieren, Vorbereiten, Transformieren, Featurisieren und Analysieren von Daten bietet. Sie können einen Data Wrangler-Datenfluss in Ihre Workflows für maschinelles Lernen (ML) integrieren, um die Datenvorverarbeitung und das Feature-Engineering mit wenig bis gar keiner Codierung zu vereinfachen und zu rationalisieren. Sie können auch Ihre eigenen Python-Skripte und -Transformationen hinzufügen, um Workflows anzupassen.

Im Folgenden sind die Kernfunktionalitäten aufgeführt, die Data Wrangler bereitstellt, um Ihnen bei der Analyse und Vorbereitung von Daten für maschinelles Lernen zu helfen.

  • Import— Connect zu Amazon Simple Storage Service (Amazon S3) her und importieren Sie sie,Amazon Athena(Athena) und Amazon Redshift.

  • Datenfluss— Erstellen Sie einen Datenfluss, um eine Reihe von ML-Datenvorbereitungsschritten zu definieren. Sie können einen Flow verwenden, um Datensätze aus verschiedenen Datenquellen zu kombinieren, die Anzahl und Typen von Transformationen zu identifizieren, die Sie auf Datensätze anwenden möchten, und einen Datenvorbereitungs-Workflow definieren, der einfach in eine ML-Pipeline integriert werden kann.

  • Transformation- Reinigen und transformieren Sie Ihren Datensatz mit Standardwandelt umwie Zeichenfolge-, Vektor- und numerische Datenformatierungswerkzeuge. Stellen Sie Ihre Daten mithilfe von Transformationen wie Text- und Datums-/Uhrzeit-Einbettung und kategorischer Kodierung bereit.

  • Analysieren— Analysieren Sie Funktionen in Ihrem Dataset an jedem Punkt in Ihrem Flow. Data Wrangler umfasst integrierte Datenvisualisierungstools wie Scatterplots und Histogramme sowie Datenanalyse-Tools wie Zielleckage-Analyse und schnelle Modellierung, um die Feature-Korrelation zu verstehen.

  • Export— Data Wrangler bietet Exportoptionen für andere SageMaker-Dienste, einschließlich Data Wrangler-Jobs, Feature Store und Pipelines, sodass Sie Ihren Datenvorbereitungsfluss einfach in Ihren ML-Workflow integrieren können. Sie können Ihren Data Wrangler-Flow auch in Python-Code exportieren.

Informationen zu den ersten Schritten zur Verwendung von Data Wrangler finden Sie unterErste Schritte mit Data Wrangleraus.