Optimización de la compactación - AWS Glue

Optimización de la compactación

Los lagos de datos de Amazon S3 que utilizan formatos de tablas abiertos, como Apache Iceberg, almacenan los datos como objetos de S3. Tener miles de objetos pequeños de Amazon S3 en una tabla de lago de datos aumenta la sobrecarga de metadatos y afecta al rendimiento de lectura. AWS Glue Data Catalog proporciona una compactación administrada para tablas de Iceberg, que compacta objetos pequeños en otros más grandes para lograr un mejor rendimiento de lectura mediante servicios de análisis de AWS como Amazon Athena y Amazon EMR, así como trabajos de ETL de AWS Glue. El Catálogo de datos efectúa la compactación sin interferir en las consultas simultáneas y solo admite la compactación en tablas con formato Parquet.

El optimizador de tablas supervisa continuamente las particiones de las tablas e inicia el proceso de compactación cuando se supera el límite de cantidad y tamaño de los archivos.

En el Catálogo de datos, el proceso de compactación comienza y continuará si la tabla o alguna de las particiones de la tabla tiene más de cinco archivos, cada uno de ellos con un tamaño inferior al 75 % del archivo de destino (actualmente establecido en 64 MB).

Para conocer los tipos de datos, los formatos de compresión y las limitaciones compatibles, consulte Formatos compatibles y limitaciones de la compactación de datos administrada .