AWS Data Pipeline non è più disponibile per i nuovi clienti. Clienti esistenti di AWS Data Pipeline possono continuare a utilizzare il servizio normalmente. Ulteriori informazioni
Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Migrazione dei carichi di lavoro da AWS Data Pipeline
AWS ha lanciato il AWS Data Pipeline servizio nel 2012. A quel tempo, i clienti cercavano un servizio che li aiutasse a spostare in modo affidabile i dati tra diverse fonti di dati utilizzando una varietà di opzioni di elaborazione. Ora esistono altri servizi che offrono ai clienti un'esperienza migliore. Ad esempio, puoi usare to per eseguire e AWS Glue orchestrare le applicazioni Apache Spark, Step Functions AWS per aiutare a orchestrare i AWS componenti del servizio o Amazon Managed Workflows for Apache Airflow (Amazon MWAA) per gestire l'orchestrazione del flusso di lavoro per Apache Airflow.
Questo argomento spiega come migrare da opzioni alternative. AWS Data Pipeline L'opzione scelta dipende dal carico di lavoro corrente su. AWS Data Pipeline Puoi migrare i casi d'uso tipici AWS Data Pipeline verso AWS Step Functions o Amazon MWAA. AWS Glue
Migrazione dei carichi di lavoro in AWS Glue
AWS Glue
Ti consigliamo di migrare il AWS Data Pipeline carico di lavoro a quando: AWS Glue
Stai cercando un servizio di integrazione dei dati senza server che supporti varie fonti di dati, interfacce di creazione tra cui editor visivi e notebook e funzionalità avanzate di gestione dei dati come la qualità dei dati e il rilevamento dei dati sensibili.
Il carico di lavoro può essere migrato verso AWS Glue flussi di lavoro, job (in Python o Apache Spark) e crawler (ad esempio, la pipeline esistente è costruita su Apache Spark).
È necessaria un'unica piattaforma in grado di gestire tutti gli aspetti della pipeline di dati, tra cui l'acquisizione, l'elaborazione, il trasferimento, i test di integrità e i controlli di qualità.
La tua pipeline esistente è stata creata da un modello predefinito sulla AWS Data Pipeline console, ad esempio l'esportazione di una tabella DynamoDB in Amazon S3, e stai cercando un modello con lo stesso scopo.
Il tuo carico di lavoro non dipende da una specifica applicazione dell'ecosistema Hadoop come Apache Hive.
Il tuo carico di lavoro non richiede l'orchestrazione di server locali.
AWS addebita una tariffa oraria, fatturata al secondo, per i crawler (rilevamento dei dati) e i job ETL (elaborazione e caricamento dei dati). AWS Glue Studio è un motore di orchestrazione integrato per AWS Glue le risorse e viene offerto senza costi aggiuntivi. Scopri di più sui prezzi nella AWS Glue sezione Prezzi.
Migrazione dei carichi di lavoro a Step Functions AWS
AWS Step Functions
Analogamente AWS Data Pipeline, AWS Step Functions è un servizio completamente gestito fornito da AWS. Non ti verrà richiesto di gestire l'infrastruttura, applicare patch worker, gestire gli aggiornamenti delle versioni del sistema operativo o simili.
Ti consigliamo di migrare il AWS Data Pipeline carico di lavoro a AWS Step Functions quando:
Stai cercando un servizio di orchestrazione del flusso di lavoro senza server e ad alta disponibilità.
Stai cercando una soluzione conveniente che addebiti una granularità dell'esecuzione di una singola attività.
I tuoi carichi di lavoro orchestrano attività per molti altri AWS servizi, come Amazon EMR, Lambda o DynamoDB. AWS Glue
Stai cercando una soluzione low-code dotata di un drag-and-drop visual designer per la creazione di flussi di lavoro e che non richieda l'apprendimento di nuovi concetti di programmazione.
Stai cercando un servizio che fornisca integrazioni con oltre 250 altri AWS servizi che coprano oltre 11.000 azioni out-of-the-box, oltre a consentire integrazioni con attività e servizi non personalizzati.AWS
AWS Data Pipeline Sia Step Functions che Step Functions utilizzano il formato JSON per definire i flussi di lavoro. Ciò consente di archiviare i flussi di lavoro nel controllo del codice sorgente, gestire le versioni, controllare l'accesso e automatizzare con CI/CD. Step Functions utilizza una sintassi chiamata Amazon State Language che è completamente basata su JSON e consente una transizione senza interruzioni tra le rappresentazioni testuali e visive del flusso di lavoro.
Con Step Functions, puoi scegliere la stessa versione di Amazon EMR in cui utilizzi attualmente. AWS Data Pipeline
Per la migrazione delle attività sulle risorse AWS Data Pipeline gestite, puoi utilizzare l'integrazione dei servizi AWS SDK su Step Functions per automatizzare il provisioning e la pulizia delle risorse.
Per la migrazione delle attività su server locali, istanze EC2 gestite dall'utente o un cluster EMR gestito dall'utente, puoi installare un agente SSM sull'istanza. È possibile avviare il comando tramite AWS Systems Manager Run Command di Step Functions. Puoi anche avviare la macchina a stati dalla pianificazione definita in Amazon EventBridge
AWS Step Functions ha due tipi di flussi di lavoro: flussi di lavoro standard e flussi di lavoro rapidi. Per i flussi di lavoro standard, l'addebito viene calcolato in base al numero di transizioni di stato necessarie per eseguire l'applicazione. Per Express Workflows, i costi vengono addebitati in base al numero di richieste per il flusso di lavoro e alla sua durata. Scopri di più sui prezzi in AWS Step Functions Pricing
Migrazione dei carichi di lavoro su Amazon MWAA
Amazon MWAA
Analogamente AWS Data Pipeline, Amazon MWAA è un servizio completamente gestito fornito da. AWS Sebbene sia necessario apprendere diversi nuovi concetti specifici relativi a questi servizi, non è necessario gestire l'infrastruttura, applicare patch worker, gestire gli aggiornamenti delle versioni del sistema operativo o simili.
Ti consigliamo di migrare i AWS Data Pipeline carichi di lavoro su Amazon MWAA quando:
Stai cercando un servizio gestito e ad alta disponibilità per orchestrare i flussi di lavoro scritti in Python.
Vuoi passare a una tecnologia open source completamente gestita e ampiamente adottata, Apache Airflow, per la massima portabilità.
È necessaria un'unica piattaforma in grado di gestire tutti gli aspetti della pipeline di dati, tra cui l'acquisizione, l'elaborazione, il trasferimento, i test di integrità e i controlli di qualità.
Stai cercando un servizio progettato per l'orchestrazione della pipeline di dati con funzionalità come un'interfaccia utente avanzata per l'osservabilità, i riavvii per i flussi di lavoro non riusciti, i backfill e i nuovi tentativi di esecuzione delle attività.
Stai cercando un servizio che includa più di 800 operatori e sensori predefiniti, che coprano e non coprano servizi. AWS AWS
I flussi di lavoro Amazon MWAA sono definiti come Directed Acyclic Graphs (DAG) utilizzando Python, quindi puoi trattarli anche come codice sorgente. Il framework Python estensibile di Airflow ti consente di creare flussi di lavoro che si connettono praticamente con qualsiasi tecnologia. È dotato di una ricca interfaccia utente per la visualizzazione e il monitoraggio dei flussi di lavoro e può essere facilmente integrato con i sistemi di controllo delle versioni per automatizzare il processo CI/CD.
Con Amazon MWAA, puoi scegliere la stessa versione di Amazon EMR in cui utilizzi attualmente. AWS Data Pipeline
AWS addebita in base al tempo di funzionamento dell'ambiente Airflow e qualsiasi ulteriore scalabilità automatica per fornire maggiore capacità ai dipendenti o ai server Web. Scopri di più sui prezzi in Amazon Managed Workflows for Apache Airflow
Mappatura dei concetti
La tabella seguente contiene la mappatura dei concetti principali utilizzati dai servizi. Aiuterà le persone che hanno familiarità con Data Pipeline a comprendere la terminologia Step Functions e MWAA.
Data Pipeline | Aderenza | Step Functions | Amazon MWAA |
---|---|---|---|
Pipeline | Flussi di lavoro | Flussi di lavoro | Grafi acrilici diretti |
Definizione della pipeline JSON | Definizione del flusso di lavoro o progetti basati su Python | Amazon State Language JSON | Basato su Python |
Attività | Jobs | Stati e attività | Attività |
Istanze | Job viene eseguito | Esecuzioni | DAG funziona |
Tentativi | Tentativi di nuovo tentativo | Catcher e retrier | Tentativi |
Pianificazione della pipeline | Pianifica i trigger | EventBridge Attività dello scheduler | Cron |
Espressioni e funzioni della pipeline | Libreria Blueprint | Step Functions, funzioni intrinseche e Lambda AWS | Framework Python estensibile |
Esempi
Nelle sezioni seguenti sono elencati esempi pubblici a cui è possibile fare riferimento per migrare da un servizio AWS Data Pipeline all'altro. È possibile utilizzarli come esempi e creare la propria pipeline sui singoli servizi aggiornandola e testandola in base al proprio caso d'uso.
AWS Glue esempi
L'elenco seguente contiene implementazioni di esempio per i casi AWS Data Pipeline d'uso più comuni con. AWS Glue
AWS Esempi di Step Functions
L'elenco seguente contiene implementazioni di esempio per i AWS Data Pipeline casi d'uso più comuni con Step Functions AWS .
Esecuzione di un processo di elaborazione dati su Amazon EMR Serverless
Interrogazione di set di dati di grandi dimensioni (Amazon Athena, Amazon S3,) AWS Glue
Guarda tutorial aggiuntivi ed esempi di progetti per l'utilizzo di AWS Step Functions.
Esempi di Amazon MWAA
L'elenco seguente contiene implementazioni di esempio per i casi AWS Data Pipeline d'uso più comuni con Amazon MWAA.
Consulta tutorial ed esempi di progetti aggiuntivi per l'uso di Amazon MWAA.