분리된 파일 삭제 - AWS Glue

분리된 파일 삭제

AWS Glue Data Catalog에서는 Iceberg 테이블에서의 분리된 파일 제거를 허용합니다. 분리된 파일은 지정된 테이블 위치 아래의 Amazon S3 데이터 소스에 존재하고 Iceberg 테이블 메타데이터에서 추적되지 않으며 구성된 수명 제한보다 오래된 참조되지 않는 파일입니다. 이러한 분리된 파일은 압축, 파티션 삭제 또는 테이블 재작성과 같은 작업의 오류로 인해 시간이 지남에 따라 누적되어 불필요한 스토리지 공간을 차지할 수 있습니다.

AWS Glue의 분리된 파일 삭제 옵티마이저는 테이블 메타데이터와 실제 데이터 파일을 스캔하고, 분리된 파일을 식별 및 삭제하여 스토리지 공간을 확보합니다. 옵티마이저는 옵티마이저 생성 날짜 이후에 생성된 파일 중 구성된 삭제 기준을 충족하는 파일만 제거합니다. 옵티마이저 생성 날짜 또는 그 이전에 생성된 파일은 삭제되지 않습니다.

분리된 파일 삭제 로직

  1. 날짜 확인 - 파일 생성 날짜를 옵티마이저 생성 날짜와 비교합니다. 파일 생성 날짜가 옵티마이저 생성 날짜보다 이전이거나 같으면 해당 파일을 건너뜁니다.

  2. 옵티마이저 구성 확인 - 옵티마이저 생성 날짜 이후에 생성된 파일의 경우는 구성된 수명 제한을 기준으로 파일을 평가합니다. 삭제 기준과 일치하는 경우 옵티마이저가 파일을 삭제합니다. 기준과 일치하지 않는 파일은 건너뜁니다.

데이터 카탈로그에서 분리된 파일 삭제 테이블 옵티마이저를 생성하여 분리된 파일 삭제를 시작할 수 있습니다.

중요

기본적으로 분리된 파일 삭제는 AWS Glue 테이블 위치 전체에서 파일을 평가합니다. API 파라미터를 사용하여 평가 범위를 제한하도록 하위 접두사를 구성할 수 있지만, 테이블 위치에 다른 데이터 소스 또는 테이블의 파일이 포함되어서는 안 됩니다. 테이블 위치가 다른 데이터 소스와 겹치는 경우, 서비스가 관련 없는 파일을 분리된 파일로 식별하고 삭제할 수 있습니다.