Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Charges de travail de transformation des données avec Processing SageMaker
SageMaker Le traitement fait référence aux capacités SageMaker d'exécuter des tâches de prétraitement et de post-traitement des données, d'ingénierie des fonctionnalités et d'évaluation SageMaker de modèles sur une infrastructure entièrement gérée. Ces tâches sont exécutées en tant que tâches de traitement. Vous trouverez ci-dessous des informations et des ressources pour en savoir plus sur SageMaker le traitement.
Grâce à SageMaker ProcessingAPI, les data scientists peuvent exécuter des scripts et des blocs-notes pour traiter, transformer et analyser des ensembles de données afin de les préparer à l'apprentissage automatique. Combiné aux autres tâches critiques d'apprentissage automatique fournies par SageMaker, telles que la formation et l'hébergement, Processing vous offre les avantages d'un environnement d'apprentissage automatique entièrement géré, y compris tout le support intégré en matière de sécurité et de conformité SageMaker. Vous avez la possibilité d'utiliser les conteneurs de traitement de données intégrés ou d'apporter vos propres conteneurs pour une logique de traitement personnalisée, puis de soumettre des tâches à exécuter sur une infrastructure SageMaker gérée.
Note
Vous pouvez créer une tâche de traitement par programmation en appelant l'CreateProcessingJobAPIaction dans n'importe quelle langue prise en charge par SageMaker ou en utilisant le. AWS CLI Pour plus d'informations sur la façon dont cette API action se traduit par une fonction dans la langue de votre choix, consultez la section Voir aussi de CreateProcessingJob et choisissez unSDK. À titre d'exemple, pour les utilisateurs de Python, reportez-vous à la section Amazon SageMaker Processing
Le schéma suivant montre comment Amazon SageMaker lance une tâche de traitement. Amazon SageMaker prend votre script, copie vos données depuis Amazon Simple Storage Service (Amazon S3), puis extrait un conteneur de traitement. L'infrastructure sous-jacente d'une tâche de traitement est entièrement gérée par Amazon SageMaker. Une fois que vous avez soumis une tâche de traitement, SageMaker lancez les instances de calcul, traitez et analysez les données d'entrée, puis libérez les ressources une fois celles-ci terminées. La sortie de la tâche de traitement est stockée dans le compartiment Amazon S3 que vous avez spécifié.
Note
Vos données d'entrée doivent être stockées dans un compartiment Amazon S3. Vous pouvez également utiliser Amazon Athena ou Amazon Redshift comme sources d'entrée.
Astuce
Pour découvrir les bonnes pratiques en matière de calcul distribué pour l'entraînement au machine learning (ML) et les tâches de traitement en général, consultez Informatique distribuée avec les SageMaker meilleures pratiques.
Utiliser Amazon SageMaker Processing Sample Notebooks
Nous fournissons deux exemples de blocs-notes Jupyter qui montrent comment effectuer le prétraitement des données, l'évaluation des modèles ou les deux.
Pour un exemple de bloc-notes expliquant comment exécuter des scripts scikit-learn pour effectuer le prétraitement des données ainsi que l'apprentissage et l'évaluation de modèles avec SageMaker Python SDK for Processing, consultez scikit-learn Processing.
Pour un exemple de bloc-notes expliquant comment utiliser Amazon SageMaker Processing pour effectuer un prétraitement distribué des données avec Spark, consultez la section Traitement distribué (Spark)
Pour obtenir des instructions sur la création et l'accès aux instances de bloc-notes Jupyter dans lesquelles vous pouvez exécuter ces exemples SageMaker, consultez. Instances Amazon SageMaker Notebook Après avoir créé une instance de bloc-notes et l'avoir ouverte, cliquez sur l'onglet SageMaker Exemples pour afficher la liste de tous les SageMaker exemples. Pour ouvrir un bloc-notes, choisissez son onglet Use (Utiliser), puis Create copy (Créer une copie).
Surveillez les tâches SageMaker de traitement Amazon à l'aide de CloudWatch journaux et de statistiques
Amazon SageMaker Processing fournit des CloudWatch journaux et des statistiques Amazon pour surveiller les tâches de traitement. CloudWatch fournit des métriques de mémoire CPUGPU, de GPU mémoire et de disque, ainsi que la journalisation des événements. Pour plus d’informations, consultez Mesures de surveillance d'Amazon SageMaker avec Amazon CloudWatch et Groupes de journaux et flux qu'Amazon SageMaker envoie à Amazon CloudWatch Logs.