壓實管理 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

壓實管理

使用開放式表格格式 (例如 Apache 冰山) 的 Amazon S3 資料湖將資料存放為 S3 物件。在資料湖表中有數千個小型 Amazon S3 物件,可增加中繼資料額外負荷並影響讀取效能。 AWS Glue Data Catalog 為 Iceberg 資料表提供受管壓實,將小物件壓縮成較大的物件,以便透過 Amazon Amazon Athena EMR 和任務等分 AWS 析服務提供更好的讀取效能。 AWS Glue ETL數據目錄執行壓實而不與並發查詢干擾,並支持僅針對實木地板格式表壓實。

資料表最佳化工具會持續監視資料表分割區,並在檔案數量和檔案大小超過閾值時啟動壓縮程序。

在「資料目錄」中,如果資料表或資料表中的任何分割區有五個以上的檔案,每個檔案都小於目標檔案大小的 75% (目前設定為 64MB),則壓縮程序會開始並繼續進行。

如需支援的資料類型、壓縮格式和限制,請參閱受管理資料壓縮的支援格式和限制