Automatisation de clusters récurrents avec AWS Data Pipeline

AWS Data Pipeline est un service qui automatise le déplacement et la transformation de données. Vous pouvez l'utiliser pour planifier le transfert de données d'entrée dans Amazon S3 et pour planifier le lancement de clusters pour traiter ces données. Imaginons par exemple que vous avez un serveur Web qui enregistre des journaux de trafic. Si vous souhaitez exécuter un cluster hebdomadaire pour analyser les données de trafic, vous pouvez utiliser AWS Data Pipeline pour planifier ces clusters. AWS Data Pipeline est un flux de travail piloté par les données, ce qui permet qu'une tâche (lancer le cluster) soit dépendante d'une autre tâche (déplacer les données d'entrée vers Amazon S3). Il possède également une puissante fonctionnalité pour les nouvelles tentatives.

Pour plus d'informations sur AWS Data Pipeline, consultez le Guide du développeur AWS Data Pipeline, en particulier les didacticiels relatifs à Amazon EMR :

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Cloner un cluster

Résolution des problèmes liés à un cluster