Exploration, analyse et traitement de données

Généralement, avant d'utiliser un ensemble de données pour entraîner un modèle, les spécialistes des données explorent, analysent et prétraitent ces données.

Amazon SageMaker Processing permet d'exécuter des tâches pour prétraiter et post-traiter les données, réaliser l'ingénierie des fonctionnalités et évaluer des modèles SageMaker facilement et à grande échelle. Combiné aux autres tâches critiques d'apprentissage automatique fournies par SageMaker, telles que la formation et l'hébergement, Processing vous offre les avantages d'un environnement d'apprentissage automatique entièrement géré, y compris tout le support intégré en matière de sécurité et de conformité SageMaker. Processing vous offre la flexibilité d'utiliser les conteneurs de traitement de données intégrés ou d'apporter vos propres conteneurs, et d'envoyer des tâches personnalisées à exécuter sur une infrastructure gérée. Une fois que vous avez soumis une tâche, SageMaker lancez les instances de calcul, traitez et analysez les données d'entrée, puis libérez les ressources une fois celles-ci terminées. Pour plus d’informations, consultez Traitement des données.

Pour de plus amples informations sur l'exécution de vos propres scripts de traitement des données, veuillez consulter Traitement de données avec scikit-learn.
Pour de plus amples informations sur la création de votre propre conteneur de traitement pour exécuter des scripts, veuillez consulter Génération de votre propre conteneur de traitement (scénario avancé).
Pour plus d'informations sur la méthode à privilégier pour effectuer une analyse exploratoire des données (EDA) avec une interface visuelle sans code, consultez Préparez les données ML avec Amazon SageMaker Data Wrangler.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Préparation des données

Préparer les données avec Data Wrangler