압축 관리 - AWS Glue

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

압축 관리

Apache Iceberg와 같은 오픈 테이블 형식을 사용하는 Amazon S3 데이터 레이크는 데이터를 S3 객체로 저장합니다. 데이터 레이크 테이블에 수천 개의 작은 Amazon S3 객체가 있으면 메타데이터 오버헤드가 증가하고 읽기 성능에 영향을 미칩니다. AWS Glue Data Catalog에서는 Iceberg 테이블의 관리형 압축을 제공하고, Amazon Athena 및 Amazon EMR, AWS Glue ETL 작업과 같은 AWS 분석 서비스를 통해 작은 객체를 큰 객체로 압축하여 읽기 성능을 높입니다. 데이터 카탈로그는 동시 쿼리를 방해하지 않으면서 압축을 수행하고 Parquet 형식 테이블에 대해서만 압축을 지원합니다.

테이블 옵티마이저는 테이블 파티션을 지속적으로 모니터링하여 파일 수 및 파일 크기가 임곗값을 초과할 경우 압축 프로세스를 시작합니다. Iceberg 테이블은 write.target-file-size-bytes 속성에 지정된 파일 크기가 128MB~512MB 범위 내에 있는 경우 압축에 적합합니다. 데이터 카탈로그에서 테이블에 5개 이상의 파일이 있고 각 파일이 write.target-file-size-bytes 속성의 75%보다 작은 경우 압축 프로세스가 시작됩니다.

예를 들어 write.target-file-size-bytes 속성에 파일 크기 임계값이 512MB(앞서 설명한 128MB~512MB 범위 이내)로 설정된 테이블이 있고 이 테이블에는 10개의 파일이 포함되어 있다고 가정합니다. 파일 10개 중 6개가 384MB(0.75*512)보다 작은 경우 데이터 카탈로그가 압축을 트리거합니다.

지원되는 데이터 유형, 압축 형식 및 제한은 관리형 데이터 압축에 지원되는 형식 및 제한 사항 섹션을 참조하십시오.