壓縮最佳化 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

壓縮最佳化

Amazon S3 資料湖使用開放資料表格式,例如 Apache Iceberg,將資料儲存為 S3 物件。在資料湖資料表中擁有數千個小型 Amazon S3 物件會增加中繼資料負荷,並影響讀取效能。 為 Iceberg 資料表 AWS Glue Data Catalog 提供受管壓縮,將小型物件壓縮成較大的物件,以便透過 Amazon Athena 和 Amazon EMR 和 AWS Glue ETL 任務等 AWS 分析服務獲得更好的讀取效能。Data Catalog 在不干擾並行查詢的情況下執行壓縮,並僅支援 Parquet 格式資料表的壓縮。

資料表最佳化工具會持續監控資料表分割區,並在超過檔案和檔案大小的閾值時啟動壓縮程序。

在 Data Catalog 中,壓縮程序會在資料表或其任何分割區有超過 100 個檔案時啟動。每個檔案都必須小於目標檔案大小的 75%。目標檔案大小由write.target-file-size-bytes資料表屬性定義,如果未明確設定,則預設為 512 MB。

如需限制的詳細資訊,請參閱受管資料壓縮支援的格式和限制