Hudi - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Hudi

Apache Hudi ist ein Open-Source-Datenverwaltungs-Framework, das verwendet wird, um die inkrementelle Datenverarbeitung und die Entwicklung von Datenpipelines zu vereinfachen, indem Einfüge-, Aktualisierungs-, Upsert- und Löschfunktionen auf Datensatzebene bereitgestellt werden. Upsert bezieht sich auf die Möglichkeit, Datensätze in ein vorhandenes Dataset einzufügen, wenn sie noch nicht vorhanden sind, oder sie zu aktualisieren, falls sie schon vorhanden sind. Durch die effiziente Verwaltung der Datenaufstellung in Amazon S3 ermöglicht Hudi die Aufnahme und Aktualisierung von Daten in nahezu Echtzeit. Hudi verwaltet sorgfältig Metadaten der Aktionen, die für das Dataset ausgeführt werden, um leichter sicherzustellen zu können, dass die Aktionen atomar und konsistent sind.

Hudi ist in Apache Spark, Apache Hive und Presto. integriert. In den Amazon EMR-Versionen 6.1.0 und höher ist Hudi auch in Trino (PrestoSQL) integriert.

Mit Amazon EMR Version 5.28.0 und höher installiert EMR Hudi-Komponenten standardmäßig, wenn Spark, Hive oder Presto installiert sind. Sie können Spark oder das Dienstprogramm DeltaStreamer von Hudi verwenden, um Hudi-Datasets zu erstellen oder zu aktualisieren. Sie können Hive, Spark oder Presto verwenden, um ein Hudi-Dataset interaktiv abzufragen oder Datenverarbeitungspipelines mithilfe des inkrementellen Pull-Vorgangs . zu erstellen. Inkrementeller Pull-Vorgang bezieht sich auf die Fähigkeit, nur die Daten zu extrahieren, die sich zwischen zwei Aktionen geändert haben.

Aufgrund dieser Eigenschaften eignet sich Hudi für die folgenden Anwendungsfälle:

  • Arbeiten mit Streaming-Daten von Sensoren und anderen IoT-Geräten (Internet of Things), die bestimmte Dateneinfüge- und Aktualisierungsereignisse erfordern.

  • Einhaltung der Datenschutzvorschriften in Anwendungen, in denen Benutzer möglicherweise vergessen werden möchten oder ihre Einwilligung für die Verwendung ihrer Daten ändern möchten.

  • Implementieren eines CDC-Systems (Change Data Capture), mit dem Sie Änderungen im Laufe der Zeit auf ein Dataset anwenden können

Die mit Hudi Amazon EMR installierte Version von 5.32.0 ist 0.6.0-amzn-0.