Traiter des données - Amazon SageMaker

Traiter des données

Pour analyser les données et évaluer les modèles de machine learning sur Amazon SageMaker, utilisez Amazon SageMaker Processing. Avec Processing, vous pouvez utiliser une expérience simplifiée et gérée sur SageMaker pour exécuter vos applications de traitement des données telles que l'ingénierie des fonctionnalités, la validation des données, l'évaluation des modèles et l'interprétation des modèles. Vous pouvez également utiliser les API Amazon SageMaker Processing pendant la phase d'expérimentation et après le déploiement du code en production afin d'évaluer les performances.


            Exécution d'une tâche de traitement.

Le diagramme précédent montre comment Amazon SageMaker lance une tâche de traitement. Amazon SageMaker prend votre script, copie vos données depuis Amazon Simple Storage Service (Amazon S3), puis extrait un conteneur de traitement. L'image du conteneur de traitement peut être une image intégrée à Amazon SageMaker ou une image personnalisée fournie par vos soins. L'infrastructure sous-jacente d'une tâche de traitement est entièrement gérée par Amazon SageMaker. Les ressources de cluster sont allouées pour la durée de votre tâche et nettoyées à la fin de la tâche. La sortie de la tâche de traitement est stockée dans le compartiment Amazon S3 que vous avez spécifié.

Note

Vos données d'entrée doivent être stockées dans un compartiment Amazon S3. Vous pouvez également utiliser Amazon Athena ou Amazon Redshift comme sources d'entrée.

Utilisation d'exemples de blocs-notes Amazon SageMaker Processing

Nous fournissons deux exemples de blocs-notes Jupyter qui montrent comment effectuer le prétraitement des données, l'évaluation des modèles ou les deux.

Pour obtenir un exemple de bloc-notes qui montre comment exécuter des scripts scikit-learn pour effectuer le prétraitement des données, ainsi que l'entraînement et l'évaluation des modèles avec le SDK SageMaker Python for Processing, veuillez consulter scikit-learn Processing. Ce bloc-notes montre également comment utiliser votre propre conteneur pour exécuter des charges de travail de traitement avec vos bibliothèques Python et d'autres dépendances spécifiques.

Pour obtenir un exemple de bloc-notes qui montre comment utiliser Amazon SageMaker Processing pour effectuer le prétraitement des données distribuées avec Spark, veuillez consulter Distributed Processing (Spark). Ce bloc-notes montre également comment entraîner un modèle de régression à l'aide de XGBoost sur le jeu de données prétraité.

Pour obtenir des instructions sur la création et l'accès aux instances de bloc-notes Jupyter que vous pouvez utiliser pour exécuter ces exemples dans SageMaker, veuillez consulter Utilisation des instances de bloc-notes Amazon SageMaker. Après avoir créé et ouvert une instance de bloc-notes, choisissez l'onglet SageMaker Examples (Exemples SageMaker) pour afficher la liste de tous les exemples SageMaker. Pour ouvrir un bloc-notes, choisissez son onglet Use (Utiliser), puis Create copy (Créer une copie).

Surveillance des tâches de traitement Amazon SageMaker avec les journaux et métriques CloudWatch

Amazon SageMaker Processing fournit des journaux et des métriques Amazon CloudWatch pour surveiller les tâches de traitement. CloudWatch fournit le processeur, le GPU, la mémoire, la mémoire du GPU, les métriques de disque et la journalisation des événements. Pour de plus amples informations, veuillez consulter contrôler Amazon SageMaker à l'aide d'Amazon CloudWatch et Journaliser les événements Amazon SageMaker à l'aide d'Amazon CloudWatch.