本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
啟用孤立檔案刪除
您可以使用 AWS Glue 主控台 AWS CLI,或 AWS API 來啟用資料目錄中 Apache Iceberg 資料表的孤立檔案刪除。對於新資料表,您可以選擇 Apache Iceberg 作為資料表格式,並在建立資料表時啟用孤立檔案刪除最佳化工具。新資料表預設會停用快照保留。
- Console
-
若要啟用孤立檔案刪除
-
在 https://console.aws.amazon.com/glue/
開啟 AWS Glue 主控台,並以資料湖管理員、資料表建立者或已在資料表上授予 glue:UpdateTable
和lakeformation:GetDataAccess
許可的使用者身分登入。 -
在導覽面板的 Data Catalog 下方,選擇資料表。
在資料表頁面上,選擇您要在其中啟用孤立檔案刪除的 Iceberg 資料表。
選擇頁面下一節的資料表最佳化索引標籤,然後從動作中選擇啟用孤立檔案刪除。
您也可以從頁面右上角的動作選單中選擇最佳化下的啟用。
-
在啟用最佳化頁面上,選擇最佳化選項下的孤立檔案刪除。
-
如果您選擇使用預設設定,所有孤立檔案都會在 3 天後刪除。如果您想要將孤立檔案保留特定天數,請選擇自訂設定。
-
接下來,選擇具有刪除孤立檔案所需許可的 IAM 角色。
-
如果您有安全政策組態,其中 Iceberg 資料表最佳化工具需要從特定虛擬私有雲端 (VPC) 存取 Amazon S3 儲存貯體,請建立 AWS Glue 網路連線或使用現有的網路連線。
如果您尚未設定 AWS Glue VPC 連線,請依照使用 AWS Glue 主控台或 AWS CLI/SDK 建立連接器連線區段中的步驟建立新的 連線。
-
如果您選擇自訂設定,請在孤立檔案刪除組態下輸入刪除前保留檔案的天數。
-
選擇啟用最佳化。
-
- AWS CLI
-
若要在 中啟用 Iceberg 資料表的孤立檔案刪除 AWS Glue,您需要建立 類型的資料表最佳化工具,
orphan_file_deletion
並將enabled
欄位設定為 true。若要使用 為 Iceberg 資料表建立孤立檔案刪除最佳化工具 AWS CLI,您可以使用下列命令:aws glue create-table-optimizer \ --catalog-id
123456789012
\ --database-nameiceberg_db
\ --table-nameiceberg_table
\ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012
:role/optimizer_role
","enabled":true, "vpcConfiguration":{ "glueConnectionName":"glue_connection_name"
}, "orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":3
, "location":'S3 location
'}}}'\ --type orphan_file_deletion此命令會為指定的 Iceberg 資料表建立孤立檔案刪除最佳化工具。關鍵參數為:
-
roleArn – ARN存取 S3 儲存貯體和 Glue 資源許可的 IAM 角色。
-
已啟用 – 設定為 true 以啟用最佳化工具。
-
PeriodInDays orphanFileRetention – 刪除孤立檔案之前要保留的天數 (至少 1 天)。
-
類型 – 設定為 orphan_file_deletion 以建立孤立檔案刪除最佳化工具。
建立資料表最佳化工具後,它會定期執行孤立檔案刪除 (如果啟用,則每天刪除一次)。您可以使用 API
list-table-optimizer-runs
檢查執行。孤立檔案刪除任務將識別和刪除資料表 Iceberg 中繼資料中未追蹤的檔案。 -
- API
-
呼叫 CreateTableOptimizer 操作,為特定資料表建立孤立檔案刪除最佳化工具。