Utilizzo di framework data lake con processi ETL di AWS Glue - AWS Glue

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo di framework data lake con processi ETL di AWS Glue

I framework data lake open source semplificano l'elaborazione incrementale dei dati per i file archiviati in data lake basati su Amazon S3. AWS Glue 3.0 e versioni successive supportano i seguenti framework data lake open source:

  • Apache Hudi

  • Linux Foundation Delta Lake

  • Apache Iceberg

Forniamo supporto nativo per questi framework in modo che sia possibile leggere e scrivere i dati archiviati in Amazon S3 in modo coerente dal punto di vista transazionale. Non è necessario installare un connettore separato o completare passaggi di configurazione aggiuntivi per utilizzare questi framework nei processi ETL di AWS Glue.

Quando gestisci i set di dati tramite AWS Glue Data Catalog, puoi utilizzare i metodi AWS Glue per leggere e scrivere tabelle di data lake con Spark DataFrames. È possibile leggere e scrivere dati Amazon S3 anche utilizzando l'API Spark DataFrame.

Questo video illustra le basi del funzionamento di Apache Hudi, Apache Iceberg e Delta Lake. Scoprirai come inserire, aggiornare ed eliminare i dati nel tuo data lake e come funziona ciascuno di questi framework.