最佳化處理 Iceberg 資料表 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

最佳化處理 Iceberg 資料表

AWS Glue 支援多個資料表最佳化選項,以增強 AWS 分析引擎和 ETL 任務所使用的 Apache Iceberg 資料表管理和效能。這些最佳化工具提供高效率的儲存使用率、改善的查詢效能,以及有效的資料管理。有三種類型的資料表最佳化工具可用於 AWS Glue:

  • 壓縮 – 資料壓縮壓縮小型資料檔案,以減少儲存用量並改善讀取效能。資料檔案會合併並重新寫入,以移除過時的資料,並將分段的資料合併成更大、更有效率的檔案。您可以設定壓縮以自動執行。

    Binpack 是 Apache Iceberg 中的預設壓縮策略。它將較小的資料檔案結合成較大的檔案,以獲得最佳效能。Compaction 也支援將類似資料叢集在一起的排序和 Z 順序策略。Sort 會根據指定的資料欄整理資料,改善篩選操作的查詢效能。Z 順序會建立排序的資料集,以在同時查詢多個資料欄時增強查詢效能。所有三種壓縮策略 - Bincpak、排序和 Z 順序 - 減少查詢引擎掃描的資料量,進而降低查詢處理成本。

  • 快照保留 – 快照是 Iceberg 資料表的時間戳記版本。快照保留組態可讓客戶強制執行保留快照的時間長度,以及要保留的快照數量。設定快照保留最佳化工具可透過移除較舊、不必要的快照及其相關聯的基礎檔案,協助管理儲存體額外負荷。

  • 孤立檔案刪除 – 孤立檔案是 Iceberg 資料表中繼資料不再參考的檔案。這些檔案可能會隨著時間累積,特別是在資料表刪除或失敗的 ETL 任務等操作之後。啟用孤立檔案刪除 AWS Glue 可讓 定期識別和移除這些不必要的檔案,釋放儲存空間。

目錄層級最佳化組態可透過 Lake Formation 主控台使用 API AWS Glue UpdateCatalog操作。您可以使用 AWS Glue 主控台或 AWS Glue API 操作,啟用或停用 Data Catalog 中個別 Iceberg 資料表的壓縮 AWS CLI、快照保留和孤立檔案刪除最佳化工具。

下列影片示範如何在 Data Catalog 中設定 Iceberg 資料表的最佳化工具。