Migrazione dei carichi di lavoro da AWS Data Pipeline Amazon MWAA - Amazon Managed Workflows for Apache Airflow

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Migrazione dei carichi di lavoro da AWS Data Pipeline Amazon MWAA

AWS ha lanciato il AWS Data Pipeline servizio nel 2012. A quel tempo, i clienti desideravano un servizio che consentisse loro di utilizzare una varietà di opzioni di elaborazione per spostare i dati tra diverse fonti di dati. Man mano che le esigenze di trasferimento dei dati sono cambiate nel tempo, sono cambiate anche le soluzioni a tali esigenze. Ora avete la possibilità di scegliere la soluzione che più si avvicina alle vostre esigenze aziendali. Puoi migrare i tuoi carichi di lavoro verso uno qualsiasi dei seguenti servizi: AWS

  • Usa Amazon Managed Workflows for Apache Airflow (Amazon MWAA) per gestire l'orchestrazione del flusso di lavoro per Apache Airflow.

  • Usa Step Functions per orchestrare i flussi di lavoro tra più persone. Servizi AWS

  • Utilizzalo AWS Glue per eseguire e orchestrare le applicazioni Apache Spark.

L'opzione scelta dipende dal carico di lavoro corrente su. AWS Data Pipeline Questo argomento spiega come eseguire la migrazione da AWS Data Pipeline Amazon MWAA.

Scegliere Amazon MWAA

Amazon Managed Workflows for Apache Airflow (Amazon MWAA) è un servizio di orchestrazione gestito per Apache Airflow che consente di configurare e gestire pipeline di dati nel cloud su larga scala. end-to-end Apache Airflow è uno strumento open source utilizzato per creare, pianificare e monitorare in modo programmatico sequenze di processi e attività denominate flussi di lavoro. Con Amazon MWAA, puoi usare Apache Airflow e il linguaggio di programmazione Python per creare flussi di lavoro senza dover gestire l'infrastruttura sottostante per scalabilità, disponibilità e sicurezza. Amazon MWAA ridimensiona automaticamente la capacità del flusso di lavoro per soddisfare le tue esigenze ed è integrato con i servizi AWS di sicurezza per aiutarti a fornire un accesso rapido e sicuro ai tuoi dati.

Di seguito vengono evidenziati alcuni dei vantaggi della migrazione AWS Data Pipeline da Amazon MWAA:

  • Scalabilità e prestazioni migliorate: Amazon MWAA fornisce un framework flessibile e scalabile per la definizione e l'esecuzione dei flussi di lavoro. Ciò consente agli utenti di gestire flussi di lavoro ampi e complessi con facilità e di sfruttare funzionalità come la pianificazione dinamica delle attività, i flussi di lavoro basati sui dati e il parallelismo.

  • Monitoraggio e registrazione migliorati: Amazon MWAA si integra con CloudWatch Amazon per migliorare il monitoraggio e la registrazione dei flussi di lavoro. Amazon MWAA invia automaticamente i parametri e i log di sistema a. CloudWatch Ciò significa che puoi monitorare i progressi e le prestazioni dei tuoi flussi di lavoro in tempo reale e identificare eventuali problemi che si presentano.

  • Migliori integrazioni con AWS servizi e software di terze parti : Amazon MWAA si integra con una varietà di altri AWS servizi, come Amazon S3 e AWS Glue Amazon Redshift, oltre a software di terze parti come DBT, Snowflake e Databricks. Ciò consente di elaborare e trasferire dati tra diversi ambienti e servizi.

  • Strumento di pipeline di dati open source: Amazon MWAA sfrutta lo stesso prodotto open source Apache Airflow che conosci. Apache Airflow è uno strumento appositamente progettato per gestire tutti gli aspetti della gestione della pipeline di dati, tra cui l'ingestione, l'elaborazione, il trasferimento, i test di integrità, i controlli di qualità e la garanzia della derivazione dei dati.

  • Architettura moderna e flessibile: Amazon MWAA sfrutta la containerizzazione e le tecnologie serverless native per il cloud. Ciò significa maggiore flessibilità e portabilità, nonché una distribuzione e una gestione più semplici degli ambienti di flusso di lavoro.

Architettura e mappatura concettuale

AWS Data Pipeline e Amazon MWAA hanno architetture e componenti diversi, che possono influire sul processo di migrazione e sul modo in cui i flussi di lavoro vengono definiti ed eseguiti. Questa sezione presenta una panoramica dell'architettura e dei componenti di entrambi i servizi ed evidenzia alcune delle differenze principali.

Entrambi AWS Data Pipeline e Amazon MWAA sono servizi completamente gestiti. Quando migri i tuoi carichi di lavoro su Amazon MWAA, potresti aver bisogno di imparare nuovi concetti per modellare i flussi di lavoro esistenti utilizzando Apache Airflow. Tuttavia, non sarà necessario gestire l'infrastruttura, applicare patch worker e gestire gli aggiornamenti del sistema operativo.

La tabella seguente associa i concetti chiave a quelli AWS Data Pipeline di Amazon MWAA. Utilizza queste informazioni come punto di partenza per progettare un piano di migrazione.

Concetto AWS Data Pipeline Amazon MWAA
Definizione della pipeline AWS Data Pipeline utilizza un file di configurazione basato su JSON che definisce il flusso di lavoro. Amazon MWAA utilizza Directed Acyclic Graphs () basati su Python che definiscono il flusso di lavoro. DAGs
Ambiente di esecuzione della pipeline I flussi di lavoro vengono eseguiti su EC2 istanze Amazon. AWS Data Pipeline effettua il provisioning e gestisce queste istanze per tuo conto. Amazon MWAA utilizza ambienti containerizzati Amazon ECS per eseguire attività.
Componenti della pipeline Le attività sono operazioni di elaborazione eseguite come parte del flusso di lavoro. Gli operatori (attività) sono le unità di elaborazione fondamentali di un flusso di lavoro.
Le precondizioni contengono istruzioni condizionali che devono essere vere prima che un'attività possa essere eseguita. I sensori (attività) rappresentano istruzioni condizionali che possono attendere il completamento di una risorsa o di un'attività prima di essere eseguite.
Una risorsa in AWS Data Pipeline si riferisce alla risorsa di AWS calcolo che esegue il lavoro specificato da un'attività di pipeline. Amazon EC2 e Amazon EMR sono due risorse disponibili. Utilizzando le attività in un DAG, puoi definire una varietà di risorse di elaborazione, tra cui Amazon ECS, Amazon EMR e Amazon EKS. Amazon MWAA esegue operazioni Python su worker eseguiti su Amazon ECS.
Esecuzione pipeline AWS Data Pipeline supporta la pianificazione di esecuzioni con schemi regolari basati sulla frequenza e su cronn. Amazon MWAA supporta la pianificazione con espressioni cron e preimpostazioni, nonché orari personalizzati.
Un'istanza si riferisce a ogni esecuzione della pipeline. Un'esecuzione DAG si riferisce a ciascuna esecuzione di un flusso di lavoro Apache Airflow.
Un tentativo si riferisce a un nuovo tentativo di eseguire un'operazione non riuscita. Amazon MWAA supporta nuovi tentativi definiti a livello di DAG o a livello di attività.

Implementazioni esemplificative

In molti casi sarai in grado di riutilizzare le risorse con cui stai attualmente orchestrando AWS Data Pipeline dopo la migrazione ad Amazon MWAA. L'elenco seguente contiene esempi di implementazioni che utilizzano Amazon MWAA per i casi d'uso più comuni. AWS Data Pipeline

Per ulteriori tutorial ed esempi, consulta quanto segue:

Confronto dei prezzi

I prezzi di AWS Data Pipeline si basano sul numero di pipeline e sull'utilizzo di ciascuna pipeline. Le attività eseguite più di una volta al giorno (alta frequenza) costano 1 USD al mese per attività. Le attività che svolgi una volta al giorno o meno (bassa frequenza) costano 0,60 USD al mese per attività. Le pipeline inattive hanno un prezzo di 1 USD per pipeline. Per ulteriori informazioni, consulta la pagina dei prezzi di AWS Data Pipeline.

I prezzi di Amazon MWAA si basano sulla durata del periodo di esistenza dell'ambiente Apache Airflow gestito e su qualsiasi ulteriore scalabilità automatica richiesta per fornire più dipendenti o capacità di pianificazione. Paghi per l'utilizzo del tuo ambiente Amazon MWAA su base oraria (fatturata con risoluzione di un secondo), con tariffe variabili a seconda delle dimensioni dell'ambiente. Amazon MWAA ridimensiona automaticamente il numero di lavoratori in base alla configurazione dell'ambiente. AWS calcola separatamente il costo dei lavoratori aggiuntivi. Per ulteriori informazioni sul costo orario dell'utilizzo di ambienti Amazon MWAA di diverse dimensioni, consulta la pagina dei prezzi di Amazon MWAA.

Risorse correlate

Per ulteriori informazioni e best practice per l'uso di Amazon MWAA, consulta le seguenti risorse: