Migrer les charges de travail depuis AWS Data Pipeline Amazon MWAA - Amazon Managed Workflows for Apache Airflow

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Migrer les charges de travail depuis AWS Data Pipeline Amazon MWAA

AWS a lancé le AWS Data Pipeline service en 2012. À l'époque, les clients recherchaient un service leur permettant d'utiliser diverses options de calcul pour déplacer des données entre différentes sources de données. Comme les besoins en matière de transfert de données ont évolué au fil du temps, les solutions à ces besoins ont également évolué. Vous avez désormais la possibilité de choisir la solution qui répond le mieux aux besoins de votre entreprise. Vous pouvez migrer vos charges de travail vers l'un des AWS services suivants :

  • Utilisez Amazon Managed Workflows for Apache Airflow (AmazonMWAA) pour gérer l'orchestration des flux de travail pour Apache Airflow.

  • Utilisez Step Functions pour orchestrer des flux de travail entre plusieurs Services AWS.

  • AWS Glue À utiliser pour exécuter et orchestrer les applications Apache Spark.

L'option que vous choisissez dépend de votre charge de travail actuelle AWS Data Pipeline. Cette rubrique explique comment effectuer une migration depuis AWS Data Pipeline AmazonMWAA.

Choisir Amazon MWAA

Amazon Managed Workflows for Apache Airflow (AmazonMWAA) est un service d'orchestration géré pour Apache Airflow qui vous permet de configurer et d'exploiter end-to-end des pipelines de données dans le cloud à grande échelle. Apache Airflow est un outil open source utilisé pour créer, planifier et surveiller par programmation des séquences de processus et de tâches appelées flux de travail. Avec AmazonMWAA, vous pouvez utiliser Apache Airflow et le langage de programmation Python pour créer des flux de travail sans avoir à gérer l'infrastructure sous-jacente en termes d'évolutivité, de disponibilité et de sécurité. Amazon adapte MWAA automatiquement la capacité de son flux de travail en fonction de vos besoins et intègre des services de AWS sécurité pour vous fournir un accès rapide et sécurisé à vos données.

Ce qui suit met en évidence certains des avantages de la migration depuis AWS Data Pipeline Amazon MWAA :

  • Évolutivité et performances améliorées : Amazon MWAA fournit un cadre flexible et évolutif pour définir et exécuter des flux de travail. Cela permet aux utilisateurs de gérer facilement des flux de travail volumineux et complexes et de tirer parti de fonctionnalités telles que la planification dynamique des tâches, les flux de travail basés sur les données et le parallélisme.

  • Surveillance et journalisation améliorées : Amazon MWAA s'intègre CloudWatch à Amazon pour améliorer la surveillance et la journalisation de vos flux de travail. Amazon envoie MWAA automatiquement les statistiques et les journaux du système à CloudWatch. Cela signifie que vous pouvez suivre la progression et les performances de vos flux de travail en temps réel et identifier les problèmes éventuels.

  • Meilleures intégrations avec les AWS services et les logiciels tiers : Amazon MWAA s'intègre à de nombreux autres AWS services, tels qu'Amazon S3 et Amazon Redshift AWS Glue, ainsi qu'à des logiciels tiers DBTtels que Snowflake et Databricks. Cela vous permet de traiter et de transférer des données entre différents environnements et services.

  • Outil de pipeline de données open source : Amazon MWAA utilise le même produit open source Apache Airflow que vous connaissez. Apache Airflow est un outil spécialement conçu pour gérer tous les aspects de la gestion du pipeline de données, notamment l'ingestion, le traitement, le transfert, les tests d'intégrité, les contrôles de qualité et la garantie du lignage des données.

  • Architecture moderne et flexible : Amazon MWAA tire parti de la conteneurisation et des technologies sans serveur natives dans le cloud. Cela signifie une flexibilité et une portabilité accrues, ainsi qu'un déploiement et une gestion simplifiés de vos environnements de flux de travail.

Cartographie de l'architecture et des concepts

AWS Data Pipeline et Amazon MWAA ont des architectures et des composants différents, ce qui peut affecter le processus de migration et la manière dont les flux de travail sont définis et exécutés. Cette section présente l'architecture et les composants des deux services et met en évidence certaines des principales différences.

Amazon AWS Data Pipeline et Amazon MWAA sont tous deux des services entièrement gérés. Lorsque vous migrez vos charges de travail vers Amazon, MWAA vous devrez peut-être apprendre de nouveaux concepts pour modéliser vos flux de travail existants à l'aide d'Apache Airflow. Toutefois, vous n'aurez pas à gérer l'infrastructure, les correctifs ni les mises à jour du système d'exploitation.

Le tableau suivant associe les concepts clés AWS Data Pipeline à ceux d'AmazonMWAA. Utilisez ces informations comme point de départ pour concevoir un plan de migration.

Concept AWS Data Pipeline Amazon MWAA
Définition du pipeline AWS Data Pipeline utilise JSON un fichier de configuration basé qui définit le flux de travail. Amazon MWAA utilise des graphes acycliques dirigés (DAGs) basés sur Python qui définissent le flux de travail.
Environnement d'exécution du pipeline Les flux de travail s'exécutent sur EC2 des instances Amazon. AWS Data Pipeline approvisionne et gère ces instances en votre nom. Amazon MWAA utilise les environnements ECS conteneurisés Amazon pour exécuter des tâches.
Composants du pipeline Les activités sont des tâches de traitement exécutées dans le cadre du flux de travail. Les opérateurs (tâches) sont les unités de traitement fondamentales d'un flux de travail.
Les conditions préalables contiennent des instructions conditionnelles qui doivent être vraies pour qu'une activité puisse être exécutée. Les capteurs (tâches) représentent des instructions conditionnelles qui peuvent attendre la fin d'une ressource ou d'une tâche avant de l'exécuter.
Une ressource in AWS Data Pipeline fait référence à la ressource de AWS calcul qui exécute le travail spécifié par une activité de pipeline. Amazon EC2 et Amazon EMR sont deux ressources disponibles. À l'aide de tâches dans unDAG, vous pouvez définir diverses ressources de calcul, notamment Amazon ECSEMR, Amazon et AmazonEKS. Amazon MWAA exécute des opérations Python sur des travailleurs exécutés sur AmazonECS.
Exécution du pipeline AWS Data Pipeline prend en charge la planification des cycles avec des modèles réguliers basés sur les taux et basés sur des crons. Amazon MWAA prend en charge la planification avec des expressions cron et des préréglages, ainsi que des horaires personnalisés.
Une instance fait référence à chaque exécution du pipeline. Une DAGexécution fait référence à chaque exécution d'un flux de travail Apache Airflow.
Une tentative fait référence à une nouvelle tentative d'une opération qui a échoué. Amazon MWAA prend en charge les nouvelles tentatives que vous définissez soit au DAG niveau, soit au niveau de la tâche.

Exemples d'implémentations

Dans de nombreux cas, vous pourrez réutiliser les ressources avec lesquelles vous êtes en train d'orchestrer AWS Data Pipeline après avoir migré vers Amazon. MWAA La liste suivante contient des exemples d'implémentations utilisant Amazon MWAA pour les cas d' AWS Data Pipeline utilisation les plus courants.

Pour des didacticiels et des exemples supplémentaires, consultez les documents suivants :

Comparaison des prix

AWS Data Pipeline La tarification est basée sur le nombre de pipelines, ainsi que sur la quantité utilisée par chaque pipeline. Les activités que vous organisez plus d'une fois par jour (fréquence élevée) coûtent 1$ par mois et par activité. Les activités que vous exécutez une fois par jour ou moins (basse fréquence) coûtent 0,60$ par mois et par activité. Le prix des pipelines inactifs est de 1$ par pipeline. Pour plus d'informations, consultez la page de tarification AWS Data Pipeline.

La tarification d'Amazon MWAA est basée sur la durée d'existence de votre environnement Apache Airflow géré et sur toute mise à l'échelle automatique supplémentaire requise pour fournir davantage de personnel ou de capacité de planification. Vous payez MWAA l'utilisation de votre environnement Amazon sur une base horaire (facturée à une seconde de résolution), avec des frais variables en fonction de la taille de l'environnement. Amazon MWAA adapte automatiquement le nombre de travailleurs en fonction de la configuration de votre environnement. AWS calcule le coût des travailleurs supplémentaires séparément. Pour plus d'informations sur le coût horaire lié à l'utilisation de différentes tailles d'MWAAenvironnement Amazon, consultez la page de MWAAtarification Amazon.

Ressources connexes

Pour plus d'informations et pour connaître les meilleures pratiques relatives à l'utilisation d'AmazonMWAA, consultez les ressources suivantes :