選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

啟用孤立檔案刪除

焦點模式
啟用孤立檔案刪除 - AWS Glue

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

您可以使用 AWS Glue 主控台或 AWS API AWS CLI,在 Data Catalog 中啟用 Apache Iceberg 資料表的孤立檔案刪除。對於新資料表,您可以選擇 Apache Iceberg 做為資料表格式,並在建立資料表時啟用孤立檔案刪除最佳化工具。新資料表的快照保留預設為停用。

Console
啟用孤立檔案刪除
  1. 在 https://https://console.aws.amazon.com/glue/ 開啟 AWS Glue 主控台,並以資料湖管理員、資料表建立者或使用者身分登入,該使用者已獲得資料表的 glue:UpdateTablelakeformation:GetDataAccess許可。

  2. 在導覽面板的 Data Catalog 下方,選擇資料表

  3. 資料表頁面上,選擇您要在其中啟用孤立檔案刪除的 Iceberg 資料表。

    選擇頁面下一節的資料表最佳化索引標籤,然後從動作中選擇啟用孤立檔案刪除

    您也可以從頁面右上角的動作選單中選擇最佳化下的啟用

  4. 啟用最佳化頁面上,選擇最佳化選項下的孤立檔案刪除

  5. 如果您選擇使用預設設定,所有孤立檔案都會在 3 天後刪除。如果您想要將孤立檔案保留特定天數,請選擇自訂設定

  6. 接著,選擇具有刪除孤立檔案所需許可的 IAM 角色。

  7. 如果您有安全政策組態,其中 Iceberg 資料表最佳化工具需要從特定虛擬私有雲端 (VPC) 存取 Amazon S3 儲存貯體,請建立 AWS Glue 網路連線或使用現有的網路連線。

    如果您尚未設定 AWS Glue VPC 連線,請依照使用 AWS Glue 主控台或 AWS CLI/SDK 建立連接器連線區段中的步驟建立新的連線。

  8. 如果您選擇自訂設定,請在孤立檔案刪除組態下,輸入刪除前保留檔案的天數。

  9. 選擇啟用最佳化

AWS CLI

若要在 中啟用 Iceberg 資料表的孤立檔案刪除 AWS Glue,您需要建立 類型的資料表最佳化工具,orphan_file_deletion並將 enabled 欄位設定為 true。若要使用 為 Iceberg 資料表建立孤立檔案刪除最佳化工具 AWS CLI,您可以使用下列命令:

aws glue create-table-optimizer \ --catalog-id 123456789012 \ --database-name iceberg_db \ --table-name iceberg_table \ --table-optimizer-configuration '{"roleArn":"arn:aws:iam::123456789012:role/optimizer_role","enabled":true, "vpcConfiguration":{ "glueConnectionName":"glue_connection_name"}, "orphanFileDeletionConfiguration":{"icebergConfiguration":{"orphanFileRetentionPeriodInDays":3, "location":'S3 location'}}}'\ --type orphan_file_deletion

此命令會為指定的 Iceberg 資料表建立孤立檔案刪除最佳化工具。金鑰參數為:

  • roleArn – IAM 角色的 ARN,具有存取 S3 儲存貯體和 Glue 資源的許可。

  • 啟用 – 設定為 true 以啟用最佳化工具。

  • orphanFileRetentionPeriodInDays – 刪除孤立檔案前的保留天數 (至少 1 天)。

  • 類型 – 設定為 orphan_file_deletion 以建立孤立檔案刪除最佳化工具。

建立資料表最佳化工具後,它會定期執行孤立檔案刪除 (如果啟用,則為每天一次)。您可以使用 list-table-optimizer-runs API 檢查執行。孤立檔案刪除任務將識別和刪除未在資料表 Iceberg 中繼資料中追蹤的檔案。

API

呼叫 CreateTableOptimizer 操作,為特定資料表建立孤立檔案刪除最佳化工具。

啟用孤立檔案刪除
  1. 在 https://https://console.aws.amazon.com/glue/ 開啟 AWS Glue 主控台,並以資料湖管理員、資料表建立者或使用者身分登入,該使用者已獲得資料表的 glue:UpdateTablelakeformation:GetDataAccess許可。

  2. 在導覽面板的 Data Catalog 下方,選擇資料表

  3. 資料表頁面上,選擇您要在其中啟用孤立檔案刪除的 Iceberg 資料表。

    選擇頁面下一節的資料表最佳化索引標籤,然後從動作中選擇啟用孤立檔案刪除

    您也可以從頁面右上角的動作選單中選擇最佳化下的啟用

  4. 啟用最佳化頁面上,選擇最佳化選項下的孤立檔案刪除

  5. 如果您選擇使用預設設定,所有孤立檔案都會在 3 天後刪除。如果您想要將孤立檔案保留特定天數,請選擇自訂設定

  6. 接著,選擇具有刪除孤立檔案所需許可的 IAM 角色。

  7. 如果您有安全政策組態,其中 Iceberg 資料表最佳化工具需要從特定虛擬私有雲端 (VPC) 存取 Amazon S3 儲存貯體,請建立 AWS Glue 網路連線或使用現有的網路連線。

    如果您尚未設定 AWS Glue VPC 連線,請依照使用 AWS Glue 主控台或 AWS CLI/SDK 建立連接器連線區段中的步驟建立新的連線。

  8. 如果您選擇自訂設定,請在孤立檔案刪除組態下,輸入刪除前保留檔案的天數。

  9. 選擇啟用最佳化

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。