Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Verwenden Sie Hudi-Metadaten für eine verbesserte Leistung

Fokusmodus
Verwenden Sie Hudi-Metadaten für eine verbesserte Leistung - Amazon Athena

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Apache Hudi verfügt über eine Metadatentabelle, die Indizierungs-Feature für eine verbesserte Leistung enthält, wie z. B. das Auflisten von Dateien, das Überspringen von Daten mithilfe von Spaltenstatistiken und einen auf Bloomfiltern basierenden Index.

Von diesen Features unterstützt Athena derzeit nur den Dateiauflistungsindex. Der Dateiauflistungsindex eliminiert Dateisystemaufrufe wie „Dateien auflisten“, indem er die Informationen aus einem Index abruft, der die Zuordnung von Partitionen zu Dateien verwaltet. Dadurch entfällt die Notwendigkeit, jede einzelne Partition unter dem Tabellenpfad rekursiv aufzulisten, um einen Überblick über das Dateisystem zu erhalten. Wenn Sie mit großen Datensätzen arbeiten, reduziert diese Indizierung die Latenz, die sonst beim Abrufen der Dateiliste bei Schreib- und Abfragen auftreten würde, drastisch. Außerdem werden Engpässe wie die Drosselung von Anforderungslimits Amazon-S3-LIST-Aufrufen vermieden.

Anmerkung

Athena unterstützt derzeit weder das Überspringen von Daten noch die Bloom-Filter-Indizierung.

Die Hudi-Metadatentabelle aktivieren

Die auf Metadatentabellen basierende Dateiauflistung ist standardmäßig deaktiviert. Um die Hudi-Metadatentabelle und die zugehörige Dateiauflistungsfunktion zu aktivieren, setzen Sie die hudi.metadata-listing-enabled-Tabelleneigenschaft auf TRUE.

Beispiel

Im folgenden ALTER TABLE SET TBLPROPERTIES-Beispiel wird die Metadatentabelle in der partition_cow-Beispieltabelle aktiviert.

ALTER TABLE partition_cow SET TBLPROPERTIES('hudi.metadata-listing-enabled'='TRUE')

Verwenden Sie vom Bootstrap generierte Metadaten

Ab Apache Hudi Version 0.6.0 bietet das Bootstrap-Feature eine bessere Leistung mit vorhandenen Parquet-Datensätzen. Anstatt den Datensatz neu zu schreiben, kann ein Bootstrap-Vorgang nur Metadaten generieren und den Datensatz an Ort und Stelle belassen.

Sie können Athena verwenden, um Tabellen aus einem Bootstrap-Vorgang abzufragen, genau wie andere Tabellen, die auf Daten in Amazon S3 basieren. Geben Sie in Ihrer CREATE TABLE-Anweisung den Hudi-Tabellenpfad in Ihrer LOCATION-Klausel an.

Weitere Informationen zum Erstellen von Hudi-Tabellen mithilfe der Bootstrap-Operation in Amazon EMR finden Sie im Artikel Neue Funktionen von Apache Hudi, die in Amazon EMR verfügbar sind, im Big Data-Blog. AWS

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.