啟用孤立檔案刪除 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

啟用孤立檔案刪除

您可以使用 AWS Glue 主控台 AWS CLI,或 AWS API 來啟用資料目錄中 Apache Iceberg 資料表的孤立檔案刪除。對於新資料表,您可以選擇 Apache Iceberg 作為資料表格式,並在建立資料表時啟用孤立檔案刪除最佳化工具。新資料表預設會停用快照保留。

Console
若要啟用孤立檔案刪除
  1. https://console.aws.amazon.com/glue/ 開啟 AWS Glue 主控台,並以資料湖管理員、資料表建立者或已在資料表上授予 glue:UpdateTablelakeformation:GetDataAccess許可的使用者身分登入。

  2. 在導覽面板的 Data Catalog 下方,選擇資料表

  3. 資料表頁面上,選擇您要在其中啟用孤立檔案刪除的 Iceberg 資料表。

    選擇頁面下一節的資料表最佳化索引標籤,然後從動作中選擇啟用孤立檔案刪除

    您也可以從頁面右上角的動作選單中選擇最佳化下的啟用

  4. 啟用最佳化頁面上,選擇最佳化選項下的孤立檔案刪除

  5. 如果您選擇使用預設設定,所有孤立檔案都會在 3 天後刪除。如果您想要將孤立檔案保留特定天數,請選擇自訂設定

  6. 接下來,選擇具有刪除孤立檔案所需許可的 IAM 角色。

  7. 如果您有安全政策組態,其中 Iceberg 資料表最佳化工具需要從特定虛擬私有雲端 (VPC) 存取 Amazon S3 儲存貯體,請建立 AWS Glue 網路連線或使用現有的網路連線。

    如果您尚未設定 AWS Glue VPC 連線,請依照使用 AWS Glue 主控台或 AWS CLI/SDK 建立連接器連線區段中的步驟建立新的 連線。

  8. 如果您選擇自訂設定,請在孤立檔案刪除組態下輸入刪除前保留檔案的天數。

  9. 選擇啟用最佳化

AWS CLI

若要在 中啟用 Iceberg 資料表的孤立檔案刪除 AWS Glue,您需要建立 類型的資料表最佳化工具,orphan_file_deletion並將 enabled 欄位設定為 true。若要使用 為 Iceberg 資料表建立孤立檔案刪除最佳化工具 AWS CLI,您可以使用下列命令:

aws glue create-table-optimizer \ --catalog-id 123456789012 \ --database-name iceberg_db \ --table-name iceberg_table \ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role","enabled":true, "vpcConfiguration":{ "glueConnectionName":"glue_connection_name"}, "orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":3, "location":'S3 location'}}}'\ --type orphan_file_deletion

此命令會為指定的 Iceberg 資料表建立孤立檔案刪除最佳化工具。關鍵參數為:

  • roleArn – ARN存取 S3 儲存貯體和 Glue 資源許可的 IAM 角色。

  • 已啟用 – 設定為 true 以啟用最佳化工具。

  • PeriodInDays orphanFileRetention – 刪除孤立檔案之前要保留的天數 (至少 1 天)。

  • 類型 – 設定為 orphan_file_deletion 以建立孤立檔案刪除最佳化工具。

建立資料表最佳化工具後,它會定期執行孤立檔案刪除 (如果啟用,則每天刪除一次)。您可以使用 API list-table-optimizer-runs 檢查執行。孤立檔案刪除任務將識別和刪除資料表 Iceberg 中繼資料中未追蹤的檔案。

API

呼叫 CreateTableOptimizer 操作,為特定資料表建立孤立檔案刪除最佳化工具。