AWS Data Pipeline n'est plus disponible pour les nouveaux clients. Les clients existants de AWS Data Pipeline peut continuer à utiliser le service normalement. En savoir plus
Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Traitez les données à l'aide d'Amazon EMR avec Hadoop Streaming
Vous pouvez l'utiliser AWS Data Pipeline pour gérer vos EMR clusters Amazon. AWS Data Pipeline Vous pouvez ainsi spécifier les conditions préalables qui doivent être remplies avant le lancement du cluster (par exemple, s'assurer que les données du jour ont été téléchargées sur Amazon S3), un calendrier pour exécuter le cluster de manière répétée et la configuration du cluster à utiliser. Le didacticiel suivant vous guide tout au long du lancement d'un simple cluster.
Dans ce didacticiel, vous allez créer un pipeline pour un EMR cluster Amazon simple afin d'exécuter une tâche Hadoop Streaming préexistante fournie par Amazon EMR et d'envoyer une SNS notification Amazon une fois la tâche terminée avec succès. Vous utilisez la ressource de EMR cluster Amazon fournie par AWS Data Pipeline pour cette tâche. L'exemple d'application est appelé WordCount et peut également être exécuté manuellement depuis la EMR console Amazon. Notez que les clusters créés en votre AWS Data Pipeline nom sont affichés dans la EMR console Amazon et sont facturés sur votre AWS compte.
Objets de pipeline
Le pipeline utilise les objets suivants :
- EmrActivity
-
Définit le travail à effectuer dans le pipeline (exécuter une tâche Hadoop Streaming préexistante fournie par Amazon). EMR
- EmrCluster
-
Ressources AWS Data Pipeline utilisées pour effectuer cette activité.
Un cluster est un ensemble d'EC2instances Amazon. AWS Data Pipeline lance le cluster, puis y met fin une fois la tâche terminée.
- Planificateur
-
Date et heure de début, et durée de l'activité. Si vous le souhaitez, vous pouvez indiquer la date et l'heure de fin.
- SnsAlarm
-
Envoie une SNS notification Amazon au sujet que vous spécifiez une fois la tâche terminée avec succès.