Hudi - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Hudi

Apache Hudi è un framework di gestione dei dati open source utilizzato per semplificare l'elaborazione dei dati incrementale e lo sviluppo della pipeline di dati fornendo funzionalità di inserimento, aggiornamento, upsert ed eliminazione a livello di record. Upsert si riferisce alla possibilità di inserire record in un set di dati esistente se non esistono già o di aggiornarli. Gestendo in modo efficiente il modo in cui i dati sono disposti in Amazon S3, Hudi consente di inserire e aggiornare i dati quasi in tempo reale. Hudi mantiene attentamente i metadati delle azioni eseguite sul set di dati per garantire che le azioni siano atomiche e coerenti.

Hudi è integrato con Apache Spark, Apache Hive e Presto. Nelle versioni Amazon EMR 6.1.0 e successive, Hudi è integrato anche con Trino (PrestoSQL).

Con la versione 5.28.0 e successive di Amazon EMR, EMR installa i componenti Hudi per impostazione predefinita quando sono installati Spark, Hive, Presto o Flink. Puoi usare Spark o l' DeltaStreamer utilità Hudi per creare o aggiornare set di dati Hudi. È possibile utilizzare Hive, Spark, Presto o Flink per per eseguire una query a un set di dati Hudi in modo interattivo o creare pipeline di elaborazione dati utilizzando pull incrementali. Il pull incrementale si riferisce alla possibilità di estrarre solo i dati che sono cambiati tra due azioni.

Queste caratteristiche rendono Hudi adatto per i seguenti casi d'uso:

  • Utilizzo di dati in streaming da sensori e altri dispositivi IoT (Internet of Things) che richiedono specifici eventi di inserimento e aggiornamento dei dati.

  • Rispetto delle norme sulla privacy dei dati nelle applicazioni in cui gli utenti possono scegliere di essere dimenticati o modificare il loro consenso per l'utilizzo dei loro dati.

  • Implementazione di un sistema di acquisizione dati di modifica (CDC) che consente di applicare modifiche a un set di dati nel tempo.

La seguente tabella indica la versione di Hudi inclusa nell'ultimo rilascio della serie Amazon EMR 7.x insieme ai componenti che Amazon EMR installa con Hudi.

Per la versione dei componenti installati con Hudi in questa versione, vedi Versioni dei componenti della release 7.1.0.

Informazioni sulla versione Hudi per emr-7.1.0
Etichetta di rilascio di Amazon EMR Versione di Hudi Componenti installati con Hudi

emr-7.1.0

Hudi 0.14.1-amzn-0

Not available.

La seguente tabella indica la versione di Hudi inclusa nell'ultimo rilascio della serie Amazon EMR 6.x insieme ai componenti che Amazon EMR installa con Hudi.

Per la versione dei componenti installati con Hudi in questo rilascio, consulta la sezione Versioni dei componenti del rilascio 6.15.0.

Informazioni sulla versione di Hudi per emr-6.15.0
Etichetta di rilascio di Amazon EMR Versione di Hudi Componenti installati con Hudi

emr-6.15.0

Hudi 0.14.0-amzn-0

Not available.

Nota

Il rilascio 6.8.0 di Amazon EMR include Apache Hudi 0.11.1; tuttavia, i cluster Amazon EMR 6.8.0 sono compatibili anche con l'open source hudi-spark3.3-bundle_2.12 di Hudi 0.12.0.

La seguente tabella indica la versione di Hudi inclusa nell'ultimo rilascio della serie Amazon EMR 5.x insieme ai componenti che Amazon EMR installa con Hudi.

Per la versione dei componenti installati con Hudi in questa versione, vedere Versioni dei componenti della release 5.36.2.

Informazioni sulla versione Hudi per emr-5.36.2
Etichetta di rilascio di Amazon EMR Versione di Hudi Componenti installati con Hudi

emr-5.36.2

Hudi 0.10.1-amzn-1

Not available.