Traitement des données à l'aide d'Amazon EMR avec Hadoop Streaming - AWS Data Pipeline

AWS Data Pipeline n'est plus disponible pour les nouveaux clients. Les clients existants de AWS Data Pipeline peuvent continuer à utiliser le service normalement. En savoir plus

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Traitement des données à l'aide d'Amazon EMR avec Hadoop Streaming

Vous pouvez l'utiliser AWS Data Pipeline pour gérer vos clusters Amazon EMR. AWS Data Pipeline Vous pouvez ainsi spécifier les conditions préalables qui doivent être remplies avant le lancement du cluster (par exemple, s'assurer que les données du jour ont été téléchargées sur Amazon S3), un calendrier pour exécuter le cluster de manière répétée et la configuration du cluster à utiliser. Le didacticiel suivant vous guide tout au long du lancement d'un simple cluster.

Dans ce didacticiel, vous allez créer un pipeline pour un cluster Amazon EMR simple afin d'exécuter une tâche Hadoop Streaming préexistante fournie par Amazon EMR et d'envoyer une notification Amazon SNS une fois la tâche terminée avec succès. Vous utilisez la ressource de cluster Amazon EMR fournie par AWS Data Pipeline pour cette tâche. L'exemple d'application est appelé WordCount et peut également être exécuté manuellement depuis la console Amazon EMR. Notez que les clusters créés en votre AWS Data Pipeline nom sont affichés dans la console Amazon EMR et sont facturés sur votre compte AWS.

Objets de pipeline

Le pipeline utilise les objets suivants :

EmrActivity

Définit le travail à effectuer dans le pipeline (exécuter une tâche Hadoop Streaming préexistante fournie par Amazon EMR).

EmrCluster

Ressources AWS Data Pipeline utilisées pour effectuer cette activité.

Un cluster est un ensemble d' EC2 instances Amazon. AWS Data Pipeline lance le cluster puis y met fin une fois la tâche terminée.

Planificateur

Date et heure de début, et durée de l'activité. Si vous le souhaitez, vous pouvez indiquer la date et l'heure de fin.

SnsAlarm

Envoie une notification Amazon SNS au sujet que vous spécifiez une fois la tâche terminée avec succès.