本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
刪除孤立檔案
AWS Glue Data Catalog 可讓您從 Iceberg 資料表中移除孤立檔案。孤立檔案是存在於指定資料表位置下 Amazon S3 資料來源中的未參考檔案,不會受到 Iceberg 資料表中繼資料追蹤,並且比您設定的存留期限制舊。由於壓縮、分割區捨棄或資料表重寫等操作失敗,這些孤立檔案可能會隨著時間累積,並佔用不必要的儲存空間。
中的孤立檔案刪除最佳化工具會 AWS Glue 掃描資料表中繼資料和實際資料檔案、識別孤立檔案,然後刪除它們以回收儲存空間。最佳化工具只會移除在最佳化工具建立日期之後建立且也符合所設定刪除條件的檔案。在最佳化工具建立日期之前或當天建立的檔案絕不會被刪除。
孤立檔案刪除邏輯
日期檢查 – 比較檔案建立日期與最佳化工具建立日期。如果檔案早於或等於最佳化工具建立日期,則會略過檔案。
最佳化工具組態檢查 – 如果檔案比最佳化工具建立日期更新, 會根據設定的存留期限制評估檔案。如果檔案符合刪除條件,最佳化工具會刪除檔案。如果檔案不符合條件,請略過檔案。
您可以在 Data Catalog 中建立孤立檔案刪除資料表最佳化工具,以啟動孤立檔案刪除。
重要
根據預設,孤立檔案刪除會跨 AWS Glue 資料表位置評估檔案。雖然您可以使用 API 參數設定子字首來限制評估範圍,但您必須確保您的資料表位置不包含來自其他資料來源或資料表的檔案。如果您的資料表位置與其他資料來源重疊,服務可能會將不相關的檔案識別並刪除為孤立檔案。