Migrer les charges de travail depuis Amazon AWS Data Pipeline MWAA - Amazon Managed Workflows for Apache Airflow

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Migrer les charges de travail depuis Amazon AWS Data Pipeline MWAA

AWS a lancé le AWS Data Pipeline service en 2012. À l'époque, les clients recherchaient un service leur permettant d'utiliser diverses options de calcul pour déplacer des données entre différentes sources de données. À mesure que les besoins en matière de transfert de données ont évolué au fil du temps, les solutions à ces besoins ont également évolué. Vous avez désormais la possibilité de choisir la solution qui répond le mieux aux besoins de votre entreprise. Vous pouvez migrer vos charges de travail vers l'un des AWS services suivants :

  • Utilisez Amazon Managed Workflows for Apache Airflow (Amazon MWAA) pour gérer l'orchestration des flux de travail pour Apache Airflow.

  • Utilisez Step Functions pour orchestrer des flux de travail entre plusieurs Services AWS.

  • AWS Glue À utiliser pour exécuter et orchestrer les applications Apache Spark.

L'option que vous choisissez dépend de votre charge de travail actuelle AWS Data Pipeline. Cette rubrique explique comment effectuer une migration depuis AWS Data Pipeline Amazon MWAA.

Choisir Amazon MWAA

Amazon Managed Workflows for Apache Airflow (Amazon MWAA) est un service d'orchestration géré pour Apache Airflow qui vous permet de configurer et d'exploiter des pipelines de end-to-end données dans le cloud à grande échelle. Apache Airflow est un outil open source utilisé pour créer, planifier et surveiller par programmation des séquences de processus et de tâches appelées flux de travail. Avec Amazon MWAA, vous pouvez utiliser Apache Airflow et le langage de programmation Python pour créer des flux de travail sans avoir à gérer l'infrastructure sous-jacente en termes d'évolutivité, de disponibilité et de sécurité. Amazon MWAA adapte automatiquement sa capacité de flux de travail en fonction de vos besoins et est intégré aux services de AWS sécurité pour vous permettre d'accéder rapidement et en toute sécurité à vos données.

Ce qui suit met en évidence certains des avantages de la migration depuis AWS Data Pipeline Amazon MWAA :

  • Évolutivité et performances améliorées : Amazon MWAA fournit un cadre flexible et évolutif pour définir et exécuter des flux de travail. Cela permet aux utilisateurs de gérer facilement des flux de travail volumineux et complexes et de tirer parti de fonctionnalités telles que la planification dynamique des tâches, les flux de travail basés sur les données et le parallélisme.

  • Surveillance et journalisation améliorées : Amazon MWAA s'intègre CloudWatch à Amazon pour améliorer la surveillance et la journalisation de vos flux de travail. Amazon MWAA envoie automatiquement les statistiques et les journaux du système à CloudWatch. Cela signifie que vous pouvez suivre la progression et les performances de vos flux de travail en temps réel et identifier les problèmes éventuels.

  • Meilleures intégrations avec les AWS services et les logiciels tiers : Amazon MWAA s'intègre à de nombreux autres AWS services, tels qu'Amazon S3 et Amazon Redshift AWS Glue, ainsi qu'à des logiciels tiers tels que DBT, Snowflake et Databricks. Cela vous permet de traiter et de transférer des données entre différents environnements et services.

  • Outil de pipeline de données open source — Amazon MWAA utilise le même produit open source Apache Airflow que vous connaissez. Apache Airflow est un outil spécialement conçu pour gérer tous les aspects de la gestion du pipeline de données, notamment l'ingestion, le traitement, le transfert, les tests d'intégrité, les contrôles de qualité et la garantie du lignage des données.

  • Architecture moderne et flexible : Amazon MWAA tire parti de la conteneurisation et des technologies sans serveur natives dans le cloud. Cela signifie une flexibilité et une portabilité accrues, ainsi qu'un déploiement et une gestion simplifiés de vos environnements de flux de travail.

Cartographie de l'architecture et des concepts

AWS Data Pipeline et Amazon MWAA ont des architectures et des composants différents, ce qui peut affecter le processus de migration et la façon dont les flux de travail sont définis et exécutés. Cette section présente l'architecture et les composants des deux services et met en évidence certaines des principales différences.

Amazon MWAA AWS Data Pipeline et Amazon sont tous deux des services entièrement gérés. Lorsque vous migrez vos charges de travail vers Amazon MWAA, vous devrez peut-être apprendre de nouveaux concepts pour modéliser vos flux de travail existants à l'aide d'Apache Airflow. Toutefois, vous n'aurez pas à gérer l'infrastructure, les correctifs ni les mises à jour du système d'exploitation.

Le tableau suivant associe les concepts clés à ceux AWS Data Pipeline d'Amazon MWAA. Utilisez ces informations comme point de départ pour concevoir un plan de migration.

Concept AWS Data Pipeline Amazon MWAA
Définition du pipeline AWS Data Pipeline utilise un fichier de configuration basé sur JSON qui définit le flux de travail. Amazon MWAA utilise des graphes acycliques dirigés basés sur Python (DAGs) qui définissent le flux de travail.
Environnement d'exécution du pipeline Les flux de travail s'exécutent sur EC2 des instances Amazon. AWS Data Pipeline approvisionne et gère ces instances en votre nom. Amazon MWAA utilise les environnements conteneurisés Amazon ECS pour exécuter des tâches.
Composants du pipeline Les activités sont des tâches de traitement exécutées dans le cadre du flux de travail. Les opérateurs (tâches) sont les unités de traitement fondamentales d'un flux de travail.
Les conditions préalables contiennent des instructions conditionnelles qui doivent être vraies pour qu'une activité puisse être exécutée. Les capteurs (tâches) représentent des instructions conditionnelles qui peuvent attendre la fin d'une ressource ou d'une tâche avant de l'exécuter.
Une ressource in AWS Data Pipeline fait référence à la ressource de AWS calcul qui exécute le travail spécifié par une activité de pipeline. Amazon EC2 et Amazon EMR sont deux ressources disponibles. À l'aide des tâches d'un DAG, vous pouvez définir diverses ressources de calcul, notamment Amazon ECS, Amazon EMR et Amazon EKS. Amazon MWAA exécute des opérations Python sur des travailleurs exécutés sur Amazon ECS.
Exécution du pipeline AWS Data Pipeline prend en charge la planification des cycles avec des modèles réguliers basés sur les taux et basés sur des crons. Amazon MWAA prend en charge la planification avec des expressions cron et des préréglages, ainsi que des horaires personnalisés.
Une instance fait référence à chaque exécution du pipeline. Une exécution DAG fait référence à chaque exécution d'un flux de travail Apache Airflow.
Une tentative fait référence à une nouvelle tentative d'une opération qui a échoué. Amazon MWAA prend en charge les nouvelles tentatives que vous définissez soit au niveau du DAG, soit au niveau de la tâche.

Exemples d'implémentations

Dans de nombreux cas, vous pourrez réutiliser les ressources avec lesquelles vous êtes en train d'orchestrer AWS Data Pipeline après avoir migré vers Amazon MWAA. La liste suivante contient des exemples d'implémentations utilisant Amazon MWAA pour les cas d'utilisation les plus courants AWS Data Pipeline .

Pour des didacticiels et des exemples supplémentaires, consultez les documents suivants :

Comparaison des prix

AWS Data Pipeline La tarification est basée sur le nombre de pipelines, ainsi que sur la quantité utilisée par chaque pipeline. Les activités que vous organisez plus d'une fois par jour (fréquence élevée) coûtent 1$ par mois et par activité. Les activités que vous exécutez une fois par jour ou moins (basse fréquence) coûtent 0,60$ par mois et par activité. Le prix des pipelines inactifs est de 1$ par pipeline. Pour plus d'informations, consultez la page de tarification AWS Data Pipeline.

La tarification d'Amazon MWAA est basée sur la durée pendant laquelle votre environnement Apache Airflow géré existe et sur toute mise à l'échelle automatique supplémentaire requise pour fournir davantage de personnel ou de capacité de planification. Vous payez l'utilisation de votre environnement Amazon MWAA sur une base horaire (facturée à une seconde de résolution), avec des frais variables en fonction de la taille de l'environnement. Amazon MWAA adapte automatiquement le nombre de travailleurs en fonction de la configuration de votre environnement. AWS calcule le coût des travailleurs supplémentaires séparément. Pour plus d'informations sur le coût horaire lié à l'utilisation de différentes tailles d'environnement Amazon MWAA, consultez la page de tarification d'Amazon MWAA.

Ressources connexes

Pour plus d'informations et pour connaître les meilleures pratiques relatives à l'utilisation d'Amazon MWAA, consultez les ressources suivantes :