孤立ファイルの削除 - AWS Glue

孤立ファイルの削除

AWS Glue Data Catalog では、Iceberg テーブルから孤立ファイルを削除できます。孤立ファイルとは、指定されたテーブルの場所の Amazon S3 データソースに存在し、Iceberg テーブルメタデータによって追跡されず、設定された経過時間制限よりも古い参照されていないファイルのことを指します。これらの孤立ファイルは、圧縮、パーティションの削除、テーブルの書き換えなどのオペレーションの障害により、時間の経過と共に蓄積され、不要なストレージスペースを占める可能性があります。

AWS Glue の孤立ファイル削除オプティマイザーは、テーブルメタデータと実際のデータファイルをスキャンして孤立ファイルを識別し、それらを削除してストレージ領域を再利用します。オプティマイザーは、オプティマイザーの作成日以降に作成された、設定された削除基準を満たすファイルのみを削除します。つまり、オプティマイザーの作成日より前に作成されたファイルは削除されません。

孤立ファイルの削除ロジック

  1. 日付チェック – ファイル作成日をオプティマイザー作成日と比較します。ファイルがオプティマイザー作成日より古い場合、そのファイルはスキップされます。

  2. オプティマイザー設定チェック – ファイルがオプティマイザー作成日より新しい場合、設定された経過期限に対してファイルを評価します。オプティマイザーは、削除基準に一致したファイルを削除します。基準と一致しない場合は、ファイルをスキップします。

データカタログで孤立ファイル削除テーブルオプティマイザーを作成することで、孤立ファイルの削除を開始できます。

重要

デフォルトでは、孤立ファイルを削除すると、AWS Glue テーブルの場所全体のファイルを評価します。API パラメーターを使用することで、評価の範囲を制限するためにサブプレフィックスを設定できますが、テーブルの場所に他のデータソースやテーブルのファイルが含まれていないことを確認する必要があります。テーブルの場所が他のデータソースと重複している場合、関係のないファイルが孤立ファイルとして識別されて削除される可能性があります。