本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
您可以使用 AWS Glue 主控台或 AWS API AWS CLI,在 Data Catalog 中啟用 Apache Iceberg 資料表的孤立檔案刪除。對於新資料表,您可以選擇 Apache Iceberg 做為資料表格式,並在建立資料表時啟用孤立檔案刪除最佳化工具。新資料表的快照保留預設為停用。
啟用孤立檔案刪除
-
在 https://https://console.aws.amazon.com/glue/
開啟 AWS Glue 主控台,並以資料湖管理員、資料表建立者或使用者身分登入,該使用者已獲得資料表的 glue:UpdateTable
和lakeformation:GetDataAccess
許可。 -
在導覽面板的 Data Catalog 下方,選擇資料表。
在資料表頁面上,選擇您要在其中啟用孤立檔案刪除的 Iceberg 資料表。
選擇頁面下一節的資料表最佳化索引標籤,然後從動作中選擇啟用孤立檔案刪除。
您也可以從頁面右上角的動作選單中選擇最佳化下的啟用。
-
在啟用最佳化頁面上,選擇最佳化選項下的孤立檔案刪除。
-
如果您選擇使用預設設定,所有孤立檔案都會在 3 天後刪除。如果您想要將孤立檔案保留特定天數,請選擇自訂設定。
-
接著,選擇具有刪除孤立檔案所需許可的 IAM 角色。
-
如果您有安全政策組態,其中 Iceberg 資料表最佳化工具需要從特定虛擬私有雲端 (VPC) 存取 Amazon S3 儲存貯體,請建立 AWS Glue 網路連線或使用現有的網路連線。
如果您尚未設定 AWS Glue VPC 連線,請依照使用 AWS Glue 主控台或 AWS CLI/SDK 建立連接器連線區段中的步驟建立新的連線。
-
如果您選擇自訂設定,請在孤立檔案刪除組態下,輸入刪除前保留檔案的天數。
-
選擇啟用最佳化。