Hudi - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Hudi

Apache Hudi è un framework di gestione dei dati open source utilizzato per semplificare l'elaborazione dei dati incrementale e lo sviluppo della pipeline di dati fornendo funzionalità di inserimento, aggiornamento, upsert ed eliminazione a livello di record. Upsert si riferisce alla possibilità di inserire record in un set di dati esistente se non esistono già o di aggiornarli. Gestendo in modo efficiente il modo in cui i dati sono disposti in Amazon S3, Hudi consente di inserire e aggiornare i dati quasi in tempo reale. Hudi mantiene attentamente i metadati delle azioni eseguite sul set di dati per garantire che le azioni siano atomiche e coerenti.

Hudi è integrato con Apache Spark, Apache Hive e Presto. Nelle EMR versioni 6.1.0 e successive di Amazon, Hudi è integrato anche con Trino (Presto). SQL

Con la EMR versione 5.28.0 e successive di Amazon, EMR installa i componenti Hudi per impostazione predefinita quando sono installati Spark, Hive, Presto o Flink. Puoi usare Spark o l'utilità Hudi per creare o aggiornare set di dati DeltaStreamer Hudi. È possibile utilizzare Hive, Spark, Presto o Flink per per eseguire una query a un set di dati Hudi in modo interattivo o creare pipeline di elaborazione dati utilizzando pull incrementali. Il pull incrementale si riferisce alla possibilità di estrarre solo i dati che sono cambiati tra due azioni.

Queste caratteristiche rendono Hudi adatto per i seguenti casi d'uso:

  • Utilizzo di dati in streaming da sensori e altri dispositivi IoT (Internet of Things) che richiedono specifici eventi di inserimento e aggiornamento dei dati.

  • Rispetto delle norme sulla privacy dei dati nelle applicazioni in cui gli utenti possono scegliere di essere dimenticati o modificare il loro consenso per l'utilizzo dei loro dati.

  • Implementazione di un sistema di acquisizione dei dati di modifica (CDC) che consente di applicare modifiche a un set di dati nel tempo.

La tabella seguente elenca la versione di Hudi inclusa nell'ultima versione della serie Amazon EMR 7.x, insieme ai componenti che Amazon EMR installa con Hudi.

Per la versione dei componenti installati con Hudi in questa versione, consulta Versioni dei componenti della release 7.2.0.

Informazioni sulla versione Hudi per emr-7.2.0
Etichetta EMR di rilascio Amazon Versione di Hudi Componenti installati con Hudi

emr-7.2.0

Hudi 0.14.1-amzn-1

Not available.

La tabella seguente elenca la versione di Hudi inclusa nell'ultima versione della serie Amazon EMR 6.x, insieme ai componenti che Amazon EMR installa con Hudi.

Per la versione dei componenti installati con Hudi in questo rilascio, consulta la sezione Versioni dei componenti del rilascio 6.15.0.

Informazioni sulla versione di Hudi per emr-6.15.0
Etichetta EMR di rilascio Amazon Versione di Hudi Componenti installati con Hudi

emr-6.15.0

Hudi 0.14.0-amzn-0

Not available.

Nota

La EMR versione 6.8.0 di Amazon include Apache Hudi 0.11.1; tuttavia, i cluster EMR Amazon 6.8.0 sono compatibili anche con l'open source di Hudi 0.12.0. hudi-spark3.3-bundle_2.12

La tabella seguente elenca la versione di Hudi inclusa nell'ultima versione della serie Amazon EMR 5.x, insieme ai componenti che Amazon EMR installa con Hudi.

Per la versione dei componenti installati con Hudi in questa versione, consulta Versioni dei componenti della release 5.36.2.

Informazioni sulla versione Hudi per emr-5.36.2
Etichetta EMR di rilascio Amazon Versione di Hudi Componenti installati con Hudi

emr-5.36.2

Hudi 0.10.1-amzn-1

Not available.