Hudi
Apache Hudi
Hudi ist in Apache Spark
Ab Amazon-EMR-Version 5.28.0 und höher installiert EMR Hudi-Komponenten standardmäßig, wenn Spark, Hive Presto oder Flink installiert ist. Sie können Spark oder das Dienstprogramm Hudi DeltaStreamer verwenden, um Hudi-Datasets zu erstellen oder zu aktualisieren. Sie können Hive, Spark, Presto oder Flink verwenden, um ein Hudi-Datensatz interaktiv abzufragen oder Datenverarbeitungspipelines mithilfe des inkrementellen Pull-Vorgangs zu erstellen. Inkrementeller Pull-Vorgang bezieht sich auf die Fähigkeit, nur die Daten zu extrahieren, die sich zwischen zwei Aktionen geändert haben.
Aufgrund dieser Features eignet sich Hudi für die folgenden Anwendungsfälle:
-
Arbeiten mit Streaming-Daten von Sensoren und anderen IoT-Geräten (Internet of Things), die bestimmte Dateneinfüge- und Aktualisierungsereignisse erfordern.
-
Einhaltung der Datenschutzvorschriften in Anwendungen, in denen Benutzer möglicherweise vergessen werden möchten oder ihre Einwilligung für die Verwendung ihrer Daten ändern möchten.
-
Implementierung eines CDC-Systems (Change Data Capture)
, mit dem Sie Änderungen relativ zur Zeit auf ein Dataset anwenden können.
Die folgende Tabelle listet die Version von Hudi auf, die in der neuesten Version der Amazon-EMR-6.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon EMR mit Hudi installiert.
Die Version der Komponenten, die mit Hudi in dieser Version installiert wurden, finden Sie unter Komponentenversionen der Version 6.14.0.
Hudi-Versionsinformationen für emr-6.14.0 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amazon-EMR-Versionsbezeichnung | Hudi-Version | Mit Hudi installierte Komponenten | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-6.14.0 |
Hudi 0.13.1-amzn-2 |
Not available. |
Anmerkung
Amazon-EMR-Version 6.8.0 enthält Apache Hudihudi-spark3.3-bundle_2.12
Die folgende Tabelle listet die Version von Hudi auf, die in der neuesten Version der Amazon-EMR-5.x-Serie enthalten ist, zusammen mit den Komponenten, die Amazon EMR mit Hudi installiert.
Die Version der Komponenten, die mit Hudi in dieser Version installiert wurden, finden Sie unter Komponentenversionen der Version 6.14.0.
Hudi-Versionsinformationen für emr-5.36.1 | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Amazon-EMR-Versionsbezeichnung | Hudi-Version | Mit Hudi installierte Komponenten | |||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
emr-5.36.1 |
Hudi 0.10.1-amzn-1 |
Not available. |