압축 최적화

Apache Iceberg와 같은 오픈 테이블 형식을 사용하는 Amazon S3 데이터 레이크는 데이터를 S3 객체로 저장합니다. 데이터 레이크 테이블에 수천 개의 작은 Amazon S3 객체가 있으면 메타데이터 오버헤드가 증가하고 읽기 성능에 영향을 미칩니다. AWS Glue Data Catalog에서는 Iceberg 테이블의 관리형 압축을 제공하고, Amazon Athena 및 Amazon EMR, AWS Glue ETL 작업과 같은 AWS 분석 서비스를 통해 작은 객체를 큰 객체로 압축하여 읽기 성능을 높입니다. 데이터 카탈로그는 동시 쿼리를 방해하지 않으면서 압축을 수행하고 Parquet 형식 테이블에 대해서만 압축을 지원합니다.

테이블 옵티마이저는 테이블 파티션을 지속적으로 모니터링하여 파일 수 및 파일 크기가 임곗값을 초과할 경우 압축 프로세스를 시작합니다.

Data Catalog에서는 테이블 또는 파티션에 100개가 넘는 파일이 있을 때 압축 프로세스가 시작됩니다. 각 파일은 대상 파일 크기의 75%보다 작아야 합니다. 대상 파일 크기는 write.target-file-size-bytes 테이블 속성에 의해 정의되며 명시적으로 설정되지 않은 경우 기본값은 512MB입니다.

제한 사항은 관리형 데이터 압축에 지원되는 형식 및 제한 사항 섹션을 참조하세요.

주제

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

카탈로그 수준 테이블 최적화 비활성화

압축 최적화 프로그램 활성화