Sélectionner vos préférences de cookies

Nous utilisons des cookies essentiels et des outils similaires qui sont nécessaires au fonctionnement de notre site et à la fourniture de nos services. Nous utilisons des cookies de performance pour collecter des statistiques anonymes afin de comprendre comment les clients utilisent notre site et d’apporter des améliorations. Les cookies essentiels ne peuvent pas être désactivés, mais vous pouvez cliquer sur « Personnaliser » ou « Refuser » pour refuser les cookies de performance.

Si vous êtes d’accord, AWS et les tiers approuvés utiliseront également des cookies pour fournir des fonctionnalités utiles au site, mémoriser vos préférences et afficher du contenu pertinent, y compris des publicités pertinentes. Pour accepter ou refuser tous les cookies non essentiels, cliquez sur « Accepter » ou « Refuser ». Pour effectuer des choix plus détaillés, cliquez sur « Personnaliser ».

Traitez les données à l'aide d'Amazon EMR avec Hadoop Streaming - AWS Data Pipeline

AWS Data Pipeline n'est plus disponible pour les nouveaux clients. Les clients existants de AWS Data Pipeline peut continuer à utiliser le service normalement. En savoir plus

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

AWS Data Pipeline n'est plus disponible pour les nouveaux clients. Les clients existants de AWS Data Pipeline peut continuer à utiliser le service normalement. En savoir plus

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Traitez les données à l'aide d'Amazon EMR avec Hadoop Streaming

Vous pouvez l'utiliser AWS Data Pipeline pour gérer vos EMR clusters Amazon. AWS Data Pipeline Vous pouvez ainsi spécifier les conditions préalables qui doivent être remplies avant le lancement du cluster (par exemple, s'assurer que les données du jour ont été téléchargées sur Amazon S3), un calendrier pour exécuter le cluster de manière répétée et la configuration du cluster à utiliser. Le didacticiel suivant vous guide tout au long du lancement d'un simple cluster.

Dans ce didacticiel, vous allez créer un pipeline pour un EMR cluster Amazon simple afin d'exécuter une tâche Hadoop Streaming préexistante fournie par Amazon EMR et d'envoyer une SNS notification Amazon une fois la tâche terminée avec succès. Vous utilisez la ressource de EMR cluster Amazon fournie par AWS Data Pipeline pour cette tâche. L'exemple d'application est appelé WordCount et peut également être exécuté manuellement depuis la EMR console Amazon. Notez que les clusters créés en votre AWS Data Pipeline nom sont affichés dans la EMR console Amazon et sont facturés sur votre AWS compte.

Objets de pipeline

Le pipeline utilise les objets suivants :

EmrActivity

Définit le travail à effectuer dans le pipeline (exécuter une tâche Hadoop Streaming préexistante fournie par Amazon). EMR

EmrCluster

Ressources AWS Data Pipeline utilisées pour effectuer cette activité.

Un cluster est un ensemble d'EC2instances Amazon. AWS Data Pipeline lance le cluster, puis y met fin une fois la tâche terminée.

Planificateur

Date et heure de début, et durée de l'activité. Si vous le souhaitez, vous pouvez indiquer la date et l'heure de fin.

SnsAlarm

Envoie une SNS notification Amazon au sujet que vous spécifiez une fois la tâche terminée avec succès.

Rubrique suivante :

Avant de commencer

Rubrique précédente :

Didacticiels
ConfidentialitéConditions d'utilisation du sitePréférences de cookies
© 2025, Amazon Web Services, Inc. ou ses affiliés. Tous droits réservés.