最佳化處理 Iceberg 資料表 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

最佳化處理 Iceberg 資料表

AWS Glue 支持多個表優化選項,以增強所使用的 Apache 冰山表的管理和性能 AWS 分析引擎和ETL工作。這些最佳化工具提供有效的儲存使用率、改善的查詢效能,以及有效的資料管理 有三種類型的表優化器可用 AWS Glue:

  • 壓縮 — 資料壓縮可壓縮小型資料檔案,以減少儲存使用量並改善讀取效能。資料檔案會被合併和重寫,以移除過時的資料,並將片段化的資料合併為更大、更有效率的檔案。壓實可以配置為根據需要自動或手動觸發運行。

  • 快照保留 — 快照是 Iceberg 資料表的時間戳記版本。快照保留組態可讓客戶強制執行快照保留多久,以及要保留多少快照。設定快照保留最佳化工具可移除較舊、不必要的快照及其相關的基礎檔案,以協助管理儲存額外負荷。

  • 刪除孤立檔案 — 孤立檔案是 Iceberg 表格中繼資料不再參考的檔案。這些檔案可能會隨著時間累積,尤其是在表格刪除或失敗ETL工作等作業之後。啟用孤立檔案刪除允許 AWS Glue 定期識別並刪除這些不必要的文件,釋放存儲空間。

您可以啟用或停用壓縮、快照保留和孤立檔案刪除最佳化工具資料目錄中的個別 Iceberg 資料表,使用 AWS Glue 控制台, AWS CLI,或 AWS Glue API操作。