Traitement des données à l'aide d'Amazon EMR avec Hadoop Streaming

Vous pouvez l'utiliser AWS Data Pipeline pour gérer vos clusters Amazon EMR. AWS Data Pipeline Vous pouvez ainsi spécifier les conditions préalables qui doivent être remplies avant le lancement du cluster (par exemple, s'assurer que les données du jour ont été téléchargées sur Amazon S3), un calendrier pour exécuter le cluster de manière répétée et la configuration du cluster à utiliser. Le didacticiel suivant vous guide tout au long du lancement d'un simple cluster.

Dans ce didacticiel, vous allez créer un pipeline pour un cluster Amazon EMR simple afin d'exécuter une tâche Hadoop Streaming préexistante fournie par Amazon EMR et d'envoyer une notification Amazon SNS une fois la tâche terminée avec succès. Vous utilisez la ressource de cluster Amazon EMR fournie par AWS Data Pipeline pour cette tâche. L'exemple d'application est appelé WordCount et peut également être exécuté manuellement depuis la console Amazon EMR. Notez que les clusters créés en votre AWS Data Pipeline nom sont affichés dans la console Amazon EMR et sont facturés sur votre compte AWS.

Objets de pipeline

Le pipeline utilise les objets suivants :

EmrActivity

Définit le travail à effectuer dans le pipeline (exécuter une tâche Hadoop Streaming préexistante fournie par Amazon EMR).

EmrCluster

Ressources AWS Data Pipeline utilisées pour effectuer cette activité.

Un cluster est un ensemble d' EC2 instances Amazon. AWS Data Pipeline lance le cluster puis y met fin une fois la tâche terminée.

Planificateur

Date et heure de début, et durée de l'activité. Si vous le souhaitez, vous pouvez indiquer la date et l'heure de fin.

SnsAlarm

Envoie une notification Amazon SNS au sujet que vous spécifiez une fois la tâche terminée avec succès.

Table des matières

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Didacticiels

Avant de commencer