Hudi - Amazon EMR

Hudi

Apache Hudi ist ein Open-Source-Datenverwaltungs-Framework, das verwendet wird, um die inkrementelle Datenverarbeitung und die Entwicklung von Datenpipelines zu vereinfachen, indem Einfüge-, Aktualisierungs-, Upsert- und Löschfunktionen auf Datensatzebene bereitgestellt werden. Upsert bezieht sich auf die Möglichkeit, Datensätze in ein vorhandenes Dataset einzufügen, wenn sie noch nicht vorhanden sind, oder sie zu aktualisieren, falls sie schon vorhanden sind. Durch die effiziente Verwaltung der Datenaufstellung in Amazon S3 ermöglicht Hudi die Aufnahme und Aktualisierung von Daten in nahezu Echtzeit. Hudi verwaltet sorgfältig Metadaten der Aktionen, die für das Dataset ausgeführt werden, um leichter sicherzustellen zu können, dass die Aktionen atomar und konsistent sind.

Hudi ist in Apache Spark, Apache Hive und Presto integriert. In den Amazon-EMR-Release-Versionen 6.1.0 und höher ist Hudi auch in Trino (PrestoSQL) integriert.

Ab Amazon-EMR-Version 5.28.0 und höher installiert EMR Hudi-Komponenten standardmäßig, wenn Spark, Hive Presto oder Flink installiert ist. Sie können Spark oder das Dienstprogramm Hudi DeltaStreamer verwenden, um Hudi-Datasets zu erstellen oder zu aktualisieren. Sie können Hive, Spark, Presto oder Flink verwenden, um ein Hudi-Datensatz interaktiv abzufragen oder Datenverarbeitungspipelines mithilfe des inkrementellen Pull-Vorgangs zu erstellen. Inkrementeller Pull-Vorgang bezieht sich auf die Fähigkeit, nur die Daten zu extrahieren, die sich zwischen zwei Aktionen geändert haben.

Aufgrund dieser Features eignet sich Hudi für die folgenden Anwendungsfälle:

  • Arbeiten mit Streaming-Daten von Sensoren und anderen IoT-Geräten (Internet of Things), die bestimmte Dateneinfüge- und Aktualisierungsereignisse erfordern.

  • Einhaltung der Datenschutzvorschriften in Anwendungen, in denen Benutzer möglicherweise vergessen werden möchten oder ihre Einwilligung für die Verwendung ihrer Daten ändern möchten.

  • Implementierung eines CDC-Systems (Change Data Capture), mit dem Sie Änderungen relativ zur Zeit auf ein Dataset anwenden können.

Die folgende Tabelle listet die Version von Hudi auf, die in der neuesten Version der Amazon-EMR-6.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon EMR mit Hudi installiert.

Die Version der Komponenten, die mit Hudi in dieser Version installiert wurden, finden Sie unter Komponentenversionen der Version 6.14.0.

Hudi-Versionsinformationen für emr-6.14.0
Amazon-EMR-Versionsbezeichnung Hudi-Version Mit Hudi installierte Komponenten

emr-6.14.0

Hudi 0.13.1-amzn-2

Not available.

Anmerkung

Amazon-EMR-Version 6.8.0 enthält Apache Hudi 0.11.1. Amazon-EMR-6.8.0-Cluster sind jedoch auch mit der Open-Source-Version von Hudi 0.12.0 kompatibel. hudi-spark3.3-bundle_2.12

Die folgende Tabelle listet die Version von Hudi auf, die in der neuesten Version der Amazon-EMR-5.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon EMR mit Hudi installiert.

Die Version der Komponenten, die mit Hudi in dieser Version installiert wurden, finden Sie unter Komponentenversionen der Version 6.14.0.

Hudi-Versionsinformationen für emr-5.36.1
Amazon-EMR-Versionsbezeichnung Hudi-Version Mit Hudi installierte Komponenten

emr-5.36.1

Hudi 0.10.1-amzn-1

Not available.