Démarrer avec AWS Data Pipeline - AWS Data Pipeline

AWS Data Pipeline n'est plus disponible pour les nouveaux clients. Les clients existants de AWS Data Pipeline peuvent continuer à utiliser le service normalement. En savoir plus

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Démarrer avec AWS Data Pipeline

AWS Data Pipeline vous permet d'ordonner, de planifier, d'exécuter et de gérer les charges de travail récurrentes de traitement de données de manière fiable et rentable. Ce service vous permet de concevoir facilement des activités extract-transform-load (ETL) à l'aide de données structurées et non structurées, à la fois sur site et dans le cloud, en fonction de votre logique métier.

Pour utiliser AWS Data Pipeline, vous créez une définition de pipeline qui spécifie la logique métier du traitement de vos données. Une définition de pipeline classique comprend des activités qui définissent le travail à effectuer et des nœuds de données qui définissent l'emplacement et le type de données d'entrée et de sortie.

Dans ce tutoriel, vous exécutez un script de commande shell qui compte le nombre de demandes GET dans les journaux du serveur web Apache. Ce pipeline s'exécute toutes les 15 minutes pendant une heure et écrit la sortie sur Amazon S3 à chaque itération.

Prérequis

Avant de commencer, complétez les tâches détaillées dans Configuration pour AWS Data Pipeline.

Objets de pipeline

Le pipeline utilise les objets suivants :

ShellCommandActivity

Lit le fichier journal en entrée et compte le nombre d'erreurs.

S3 DataNode (input)

Compartiment S3 qui contient le fichier journal en entrée.

S3 DataNode (sortie)

Compartiment S3 de la sortie.

Ec2Resource

Ressource de calcul qu'AWS Data Pipeline utilise pour exécuter l'activité.

Notez que si vous avez une grande quantité de données de fichier journal, vous pouvez configurer votre pipeline afin d'utiliser un cluster EMR à la place d'une instance EC2 pour traiter les fichiers.

Planificateur

Définit que l'activité est exécutée toutes les 15 minutes pendant une heure.

Création du pipeline

Le moyen le plus rapide pour faire vos premiers pas avec AWS Data Pipeline consiste à utiliser une définition de pipeline appelée modèle.

Pour créer le pipeline
  1. Ouvrez la AWS Data Pipeline console à l'adresse https://console.aws.amazon.com/datapipeline/.

  2. Dans la barre de navigation, sélectionnez une région. Vous pouvez sélectionner n'importe quelle région disponible, quel que soit votre emplacement. De nombreuses ressources AWS sont spécifiques à une région, mais AWS Data Pipeline vous permet d'utiliser les ressources d'une autre région que celle du pipeline.

  3. Le premier écran qui s'affiche varie selon que vous avez créé ou non un pipeline dans la région actuelle.

    1. Si vous n'avez pas créé de pipeline dans cette région, la console affiche un écran d'introduction. Sélectionnez Pour commencer.

    2. Si vous avez déjà créé un pipeline dans cette région, la console affiche une page qui répertorie vos pipelines pour la région. Choisissez Create new pipeline.

  4. Dans Nom, entrez le nom de votre pipeline.

  5. (Facultatif) Dans Description, entrez une description pour votre pipeline.

  6. Pour Source, sélectionnez Créer à l'aide d'un modèle, puis sélectionnez le modèle suivant : Commencer à utiliser ShellCommandActivity.

  7. Dans la section Parameters, qui s'est ouverte quand vous avez sélectionné le modèle, conservez les valeurs par défaut de S3 input folder et de Shell command to run. Cliquez sur l'icône de dossier en regard de S3 output folder, sélectionnez l'un de vos compartiments ou dossiers, puis cliquez sur Select.

  8. Sous Schedule, conservez les valeurs par défaut. Lorsque vous activez le pipeline, le pipeline exécute le démarrage, puis poursuit toutes les 15 minutes pendant une heure.

    Si vous préférez, vous pouvez sélectionner Run once on pipeline activation.

  9. Sous Configuration du pipeline, laissez la journalisation activée. Choisissez l'icône du dossier sous l'emplacement S3 pour les journaux, sélectionnez l'un de vos compartiments ou dossiers, puis choisissez Sélectionner.

    Si vous préférez, vous pouvez désactiver la journalisation à la place.

  10. Sous Sécurité/Accès, laissez les rôles IAM définis sur Par défaut.

  11. Cliquez sur Activate.

    Si vous préférez, vous pouvez choisir Modifier dans Architect pour modifier ce pipeline. Par exemple, vous pouvez ajouter des conditions préalables.

Surveillance de l'exécution du pipeline

Une fois que vous avez activé votre pipeline, vous êtes redirigé vers la page Execution details où vous pouvez surveiller la progression de votre pipeline.

Pour surveiller la progression de votre pipeline
  1. Cliquez sur Update ou appuyez sur F5 pour mettre à jour le statut affiché.

    Astuce

    Si aucune exécution n'est affichée, assurez-vous que les valeurs Start (in UTC) et End (in UTC) couvrent les début et fin planifiés de votre pipeline, puis cliquez sur Update.

  2. Lorsque le statut de tous les objets de votre pipeline est FINISHED, votre pipeline a terminé avec succès l'exécution de tâches planifiées.

  3. Si votre pipeline ne s'est pas terminé avec succès, vérifiez les paramètres de votre pipeline à la recherche d'éventuels problèmes. Pour plus d'informations sur le dépannage des exécutions d'instance en échec ou incomplètes de votre pipeline, consultez Résolution des problèmes courants.

Affichage de la sortie

Ouvrez la console Amazon S3 et accédez à votre compartiment. Si vous avez exécuté votre pipeline toutes les 15 minutes pendant une heure, quatre sous-dossiers horodatés s'affichent. Chaque sous-dossier contient la sortie dans un fichier nommé output.txt. Dans la mesure où nous avons exécuté le script sur le même fichier d'entrée à chaque fois, les fichiers de sortie sont identiques.

Suppression du pipeline

Pour ne plus encourir de frais, supprimez votre pipeline. La suppression de votre pipeline entraîne la suppression de la définition du pipeline et de tous les objets associés.

Pour supprimer votre pipeline
  1. Sur la page Liste des pipelines, sélectionnez votre pipeline.

  2. Cliquez sur Actions, puis choisissez Supprimer.

  3. Lorsque vous êtes invité à confirmer l'opération, choisissez Supprimer.

Si vous avez terminé le résultat de ce didacticiel, supprimez les dossiers de sortie de votre compartiment Amazon S3.