Verdichtungsmanagement - AWS Glue

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verdichtungsmanagement

Die Amazon S3 S3-Data Lakes, die offene Tabellenformate wie Apache Iceberg verwenden, speichern Daten als S3-Objekte. Tausende kleiner Amazon S3 S3-Objekte in einer Data-Lake-Tabelle erhöhen den Metadaten-Overhead und beeinträchtigen die Leseleistung. AWS Glue Data Catalog bietet verwaltete Komprimierung für Iceberg-Tabellen und komprimiert kleine Objekte zu größeren, um eine bessere Leseleistung durch AWS Analysedienste wie Amazon EMR Amazon Athena und ETL-Jobs zu erzielen. AWS Glue Data Catalog führt die Komprimierung durch, ohne gleichzeitige Abfragen zu beeinträchtigen, und unterstützt die Komprimierung nur für Tabellen im Parquet-Format.

Der Tabellenoptimierer überwacht kontinuierlich Tabellenpartitionen und startet den Komprimierungsprozess, wenn der Schwellenwert für die Anzahl der Dateien und Dateigrößen überschritten wird. Eine Iceberg-Tabelle kommt für die Komprimierung in Frage, wenn die beim Schreibvorgang angegebene Dateigröße erreicht ist. target-file-size-bytes Die Eigenschaft liegt im Bereich von 128 MB bis 512 MB. Im Datenkatalog beginnt der Komprimierungsprozess, wenn die Tabelle mehr als fünf Dateien enthält, von denen jede weniger als 75% des Schreibvorgangs ausmacht. target-file-size-bytes Eigentum.

Beispiel: Sie haben eine Tabelle, bei der der Schwellenwert für die Dateigröße beim Schreiben auf 512 MB festgelegt ist. target-file-size-bytes Eigenschaft (innerhalb des vorgeschriebenen Bereichs von 128 MB bis 512 MB), und die Tabelle enthält 10 Dateien. Wenn 6 der 10 Dateien jeweils weniger als 384 MB (0,75*512) groß sind, löst der Datenkatalog die Komprimierung aus.

Informationen zu unterstützten Datentypen, Komprimierungsformaten und Einschränkungen finden Sie unter. Unterstützte Formate und Einschränkungen für die verwaltete Datenkomprimierung