Optimieren von Iceberg-Tabellen - AWS Lake Formation

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Optimieren von Iceberg-Tabellen

Die Amazon-S3-Data-Lakes, die offene Tabellenformate wie Apache Iceberg verwenden, speichern die Daten als Amazon-S3-Objekte. Wenn sich in einer Data-Lake-Tabelle Tausende kleine Amazon-S3-Objekte befinden, erhöht sich dadurch der Metadaten-Overhead in Iceberg-Tabellen und die Leseleistung wird beeinträchtigt. Um die Leseleistung von AWS-Analyseservices wie Amazon Athena, Amazon EMR und AWS Glue-ETL-Aufträgen zu verbessern, bietet AWS Glue Data Catalog die verwaltete Verdichtung (ein Prozess, der kleine Amazon-S3-Objekte zu größeren Objekten verdichtet) für Iceberg-Tabellen im Datenkatalog. Sie können die Lake-FormationAWS-Konsole, AWS GlueKonsole, oder API verwendenAWS CLI, um die Verdichtung für einzelne Iceberg-Tabellen im Data Catalog zu aktivieren oder zu deaktivieren.

Der Tabellenoptimierer überwacht Tabellenpartitionen und startet den Verdichtungsprozess, wenn der Schwellenwert für die Anzahl und Größe von Dateien überschritten wird. Im Datenkatalog liegt der Standardschwellenwert für die Einleitung der Verdichtung bei 384 MB. In der Iceberg-Bibliothek hingegen entspricht der Schwellenwert für die Verdichtung ca. 75 % der Zieldateigröße. Der Datenkatalog führt die Verdichtung durch, ohne gleichzeitige Abfragen zu stören. Der Datenkatalog unterstützt die Datenverdichtung nur für Tabellen im Parquet-Format.

Informationen zu unterstützten Datentypen, Komprimierungsformaten und Einschränkungen finden Sie unter Unterstützte Formate und Einschränkungen für die verwaltete Datenverdichtung .