Utiliser des tâches de traitement pour exécuter des charges de travail de transformation de données - Amazon SageMaker

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utiliser des tâches de traitement pour exécuter des charges de travail de transformation de données

SageMaker Le traitement fait référence aux capacités SageMaker d'exécuter des tâches de prétraitement et de post-traitement des données, d'ingénierie des fonctionnalités et d'évaluation SageMaker de modèles sur une infrastructure entièrement gérée. Ces tâches sont exécutées en tant que tâches de traitement. Grâce à l'API de SageMaker traitement, les scientifiques des données peuvent exécuter des scripts et des blocs-notes pour traiter, transformer et analyser des ensembles de données afin de les préparer à l'apprentissage automatique. Combiné aux autres tâches critiques d'apprentissage automatique fournies par SageMaker, telles que la formation et l'hébergement, Processing vous offre les avantages d'un environnement d'apprentissage automatique entièrement géré, y compris tout le support intégré en matière de sécurité et de conformité SageMaker. Vous avez la possibilité d'utiliser les conteneurs de traitement de données intégrés ou d'apporter vos propres conteneurs pour une logique de traitement personnalisée, puis de soumettre des tâches à exécuter sur une infrastructure SageMaker gérée.

Note

Vous pouvez créer une tâche de traitement par programmation en appelant l'action CreateProcessingJob API dans n'importe quel langage pris en charge par SageMaker ou en utilisant le. AWS CLI Pour plus d'informations sur la façon dont cette action d'API se traduit par une fonction dans la langue de votre choix, consultez la section Voir aussi de CreateProcessingJob et choisissez un SDK. À titre d'exemple, pour les utilisateurs de Python, reportez-vous à la section Amazon SageMaker Processing du SDK SageMaker Python. Vous pouvez également consulter la syntaxe complète de la demande de create_processing_job dans le. AWS SDK for Python (Boto3)

Le schéma suivant montre comment Amazon SageMaker lance une tâche de traitement. Amazon SageMaker prend votre script, copie vos données depuis Amazon Simple Storage Service (Amazon S3), puis extrait un conteneur de traitement. L'infrastructure sous-jacente d'une tâche de traitement est entièrement gérée par Amazon SageMaker. Une fois que vous avez soumis une tâche de traitement, SageMaker lancez les instances de calcul, traitez et analysez les données d'entrée, puis libérez les ressources une fois celles-ci terminées. La sortie de la tâche de traitement est stockée dans le compartiment Amazon S3 que vous avez spécifié.

Note

Vos données d'entrée doivent être stockées dans un compartiment Amazon S3. Vous pouvez également utiliser Amazon Athena ou Amazon Redshift comme sources d'entrée.

Exécution d'une tâche de traitement.
Astuce

Pour découvrir les bonnes pratiques en matière de calcul distribué pour l'entraînement au machine learning (ML) et les tâches de traitement en général, consultez Informatique distribuée avec les SageMaker meilleures pratiques.

Utiliser Amazon SageMaker Processing Sample Notebooks

Nous fournissons deux exemples de blocs-notes Jupyter qui montrent comment effectuer le prétraitement des données, l'évaluation des modèles ou les deux.

Pour un exemple de bloc-notes expliquant comment exécuter des scripts scikit-learn pour effectuer le prétraitement des données ainsi que l'apprentissage et l'évaluation de modèles avec le SDK SageMaker Python pour le traitement, consultez scikit-learn Processing. Ce bloc-notes montre également comment utiliser votre propre conteneur pour exécuter des charges de travail de traitement avec vos bibliothèques Python et d'autres dépendances spécifiques.

Pour un exemple de bloc-notes expliquant comment utiliser Amazon SageMaker Processing pour effectuer un prétraitement distribué des données avec Spark, consultez la section Traitement distribué (Spark). Ce bloc-notes montre également comment entraîner un modèle de régression à l'aide de XGBoost sur le jeu de données prétraité.

Pour obtenir des instructions sur la création et l'accès aux instances de bloc-notes Jupyter dans lesquelles vous pouvez exécuter ces exemples SageMaker, consultez. Instances Amazon SageMaker Notebook Après avoir créé une instance de bloc-notes et l'avoir ouverte, cliquez sur l'onglet SageMaker Exemples pour afficher la liste de tous les SageMaker exemples. Pour ouvrir un bloc-notes, choisissez son onglet Use (Utiliser), puis Create copy (Créer une copie).

Surveillez les tâches SageMaker de traitement Amazon à l'aide de CloudWatch journaux et de statistiques

Amazon SageMaker Processing fournit des CloudWatch journaux et des statistiques Amazon pour surveiller les tâches de traitement. CloudWatch fournit des mesures relatives au processeur, au processeur graphique, à la mémoire, à la mémoire graphique et au disque, ainsi qu'à la journalisation des événements. Pour plus d'informations, consultez Surveillez Amazon SageMaker avec Amazon CloudWatch et Enregistrez les SageMaker événements Amazon avec Amazon CloudWatch.