本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
本節包含在 中使用資料表最佳化工具時需要考量的事項 AWS Glue Data Catalog。
受管資料壓縮支援的格式和限制
資料壓縮支援各種資料類型和壓縮格式,用於讀取和寫入資料,包括從加密資料表讀取資料。
資料壓縮支援:
加密 – 資料壓縮僅支援預設 Amazon S3 加密 (SSE-S3) 和伺服器端 KMS 加密 (SSE-KMS)。
BinPack 壓縮
-
當儲存基礎資料的 Amazon S3 儲存貯體位於其他帳戶中時,您可以從 Data Catalog 所在的帳戶中執行壓縮程序。若要執行此程序,壓縮角色需要 Amazon S3 儲存貯體的存取權。
資料壓縮目前不支援:
一般排序或堆疊順序排序
-
跨帳戶資料表上的壓縮 – 您無法在跨帳戶資料表上執行壓縮。
-
跨區域資料表上的壓縮 – 您無法在跨區域資料表上執行壓縮。
在資源連結上啟用壓縮功能
-
Amazon S3 Express One Zone 儲存類別中的資料表 – 您無法在 S3 Express One Zone Iceberg 資料表上執行壓縮。
快照保留和孤立檔案刪除最佳化工具的考量
下列考量適用於快照保留和孤立檔案刪除最佳化工具。
快照保留和孤立檔案刪除程序的上限為每次執行刪除 1,000,000 個檔案。刪除過期快照時,如果刪除的合格檔案數目超過 1,000,000 個,則任何超出該閾值的剩餘檔案將繼續以孤立檔案的形式存在於資料表儲存中。
-
快照只有在滿足這兩個條件時,快照才會由快照保留最佳化工具保留:要保留的快照數量下限和指定的保留期間。
-
快照保留最佳化工具會從 Apache Iceberg 刪除過期的快照中繼資料,防止過期快照的時間行程查詢,並選擇性地刪除相關聯的資料檔案。
-
如果孤立檔案刪除最佳化工具的建立時間早於最佳化工具執行後的孤立檔案刪除保留期間,則刪除 Iceberg 中繼資料不再參考的孤立資料和中繼資料檔案。
-
Apache Iceberg 透過分支和標籤來促進版本控制,這些分支和標籤被命名為特定快照狀態的指標。每個分支和標籤都遵循自己的獨立生命週期,由各自層級定義的保留政策所管理。 AWS Glue Data Catalog 最佳化工具會將這些生命週期政策納入考量,確保遵守指定的保留規則。分支和標籤層級保留政策優先於最佳化工具組態。
如需詳細資訊,請參閱 Apache Iceberg 文件中的分支和標記
。 -
快照保留和孤立檔案刪除最佳化工具將根據設定的參數刪除符合清除資格的檔案。透過在適當的儲存貯體上實作 S3 版本控制和生命週期政策,增強您對檔案刪除的控制。
如需設定版本控制和建立生命週期規則的詳細說明,請參閱 https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html。