Préparer les données ML avec Amazon SageMaker Data Wrangler - Amazon SageMaker

Préparer les données ML avec Amazon SageMaker Data Wrangler

Amazon SageMaker Data Wrangler (Data Wrangler) est une fonction de SageMaker Studio qui fournit une solution intégrale pour importer, préparer, transformer, mettre en forme et analyser les données. Vous pouvez intégrer un flux de données Data Wrangler dans vos flux de travail de machine learning (ML) afin de simplifier et de rationaliser le prétraitement des données et l'ingénierie des fonctionnalités en utilisant peu ou pas de codage. Vous pouvez également ajouter vos propres scripts et transformations Python pour personnaliser les flux de travail.

Voici les principales fonctionnalités offertes par Data Wrangler pour vous aider à analyser et à préparer les données pour les applications de machine learning.

  • Import (Importer) – Connectez-vous et importez des données depuis Amazon Simple Storage Service (Amazon S3), Amazon Athena (Athena) et Amazon Redshift.

  • Data Flow (Flux de données) – Créez un flux de données permettant de définir une série d'étapes de préparation des données ML. Vous pouvez utiliser un flux pour combiner des jeux de données provenant de différentes sources de données, identifier le nombre et les types de transformations que vous souhaitez appliquer aux jeux de données, et définir un flux de préparation des données qui peut être facilement intégré à un pipeline ML.

  • Transform (Transformation) – Nettoyez et transformez votre jeu de données à l'aide de transformations standard, telles que les outils de formatage de chaînes, de vecteurs et de données numériques. Caractérisez vos données à l'aide de transformations telles que l'encapsulation de texte et de date/heure et l'encodage catégoriel.

  • Analyze (Analyser) – Analysez les caractéristiques de votre jeu de données à n'importe quel moment de votre flux. Data Wrangler dispose d'outils intégrés de visualisation des données, tels que des diagrammes de dispersion et des histogrammes, ainsi que d'outils d'analyse des données, tels que l'analyse des fuites de cibles et la modélisation rapide pour comprendre la corrélation des caractéristiques.

  • Export (Exporter) – Data Wrangler offre des options d'exportation vers d'autres services SageMaker, notamment les tâches Data Wrangler, Feature Store et les pipelines, ce qui facilite l'intégration de votre flux de préparation des données dans votre flux de travail ML. Vous pouvez également exporter votre flux Data Wrangler vers du code Python.

Pour commencer à utiliser Data Wrangler, veuillez consulter Démarrer avec Data Wrangler.