Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Hudi
Apache Hudi
Hudi ist in Apache Spark
Mit Amazon EMR Version 5.28.0 und höher installiert EMR Hudi-Komponenten standardmäßig, wenn Spark, Hive oder Presto installiert sind. Sie können Spark oder das Dienstprogramm DeltaStreamer von Hudi verwenden, um Hudi-Datasets zu erstellen oder zu aktualisieren. Sie können Hive, Spark oder Presto verwenden, um ein Hudi-Dataset interaktiv abzufragen oder Datenverarbeitungspipelines mithilfe des inkrementellen Pull-Vorgangs . zu erstellen. Inkrementeller Pull-Vorgang bezieht sich auf die Fähigkeit, nur die Daten zu extrahieren, die sich zwischen zwei Aktionen geändert haben.
Aufgrund dieser Eigenschaften eignet sich Hudi für die folgenden Anwendungsfälle:
-
Arbeiten mit Streaming-Daten von Sensoren und anderen IoT-Geräten (Internet of Things), die bestimmte Dateneinfüge- und Aktualisierungsereignisse erfordern.
-
Einhaltung der Datenschutzvorschriften in Anwendungen, in denen Benutzer möglicherweise vergessen werden möchten oder ihre Einwilligung für die Verwendung ihrer Daten ändern möchten.
-
Implementieren eines CDC-Systems (Change Data Capture)
, mit dem Sie Änderungen im Laufe der Zeit auf ein Dataset anwenden können
Die mit Hudi Amazon EMR installierte Version von 5.32.0 ist 0.6.0-amzn-0.
Themen