Die Hudi-Metadatentabelle aktivieren Verwenden Sie vom Bootstrap generierte Metadaten

Verwenden Sie Hudi-Metadaten für eine verbesserte Leistung

Apache Hudi verfügt über eine Metadatentabelle, die Indizierungs-Feature für eine verbesserte Leistung enthält, wie z. B. das Auflisten von Dateien, das Überspringen von Daten mithilfe von Spaltenstatistiken und einen auf Bloomfiltern basierenden Index.

Von diesen Features unterstützt Athena derzeit nur den Dateiauflistungsindex. Der Dateiauflistungsindex eliminiert Dateisystemaufrufe wie „Dateien auflisten“, indem er die Informationen aus einem Index abruft, der die Zuordnung von Partitionen zu Dateien verwaltet. Dadurch entfällt die Notwendigkeit, jede einzelne Partition unter dem Tabellenpfad rekursiv aufzulisten, um einen Überblick über das Dateisystem zu erhalten. Wenn Sie mit großen Datensätzen arbeiten, reduziert diese Indizierung die Latenz, die sonst beim Abrufen der Dateiliste bei Schreib- und Abfragen auftreten würde, drastisch. Außerdem werden Engpässe wie die Drosselung von Anforderungslimits Amazon-S3-LIST-Aufrufen vermieden.

Anmerkung

Athena unterstützt derzeit weder das Überspringen von Daten noch die Bloom-Filter-Indizierung.

Die Hudi-Metadatentabelle aktivieren

Die auf Metadatentabellen basierende Dateiauflistung ist standardmäßig deaktiviert. Um die Hudi-Metadatentabelle und die zugehörige Dateiauflistungsfunktion zu aktivieren, setzen Sie die hudi.metadata-listing-enabled-Tabelleneigenschaft auf TRUE.

Beispiel

Im folgenden ALTER TABLE SET TBLPROPERTIES-Beispiel wird die Metadatentabelle in der partition_cow-Beispieltabelle aktiviert.


ALTER TABLE partition_cow SET TBLPROPERTIES('hudi.metadata-listing-enabled'='TRUE')

Verwenden Sie vom Bootstrap generierte Metadaten

Ab Apache Hudi Version 0.6.0 bietet das Bootstrap-Feature eine bessere Leistung mit vorhandenen Parquet-Datensätzen. Anstatt den Datensatz neu zu schreiben, kann ein Bootstrap-Vorgang nur Metadaten generieren und den Datensatz an Ort und Stelle belassen.

Sie können Athena verwenden, um Tabellen aus einem Bootstrap-Vorgang abzufragen, genau wie andere Tabellen, die auf Daten in Amazon S3 basieren. Geben Sie in Ihrer CREATE TABLE-Anweisung den Hudi-Tabellenpfad in Ihrer LOCATION-Klausel an.

Weitere Informationen zum Erstellen von Hudi-Tabellen mithilfe der Bootstrap-Operation in Amazon EMR finden Sie im Artikel Neue Funktionen von Apache Hudi, die in Amazon EMR verfügbar sind, im Big Data-Blog. AWS

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Beispiele zusammenführen und lesen

Weitere Ressourcen