AWS Glue admite varias opciones de optimización de tablas que mejoran la administración y el rendimiento de las tablas de Apache Iceberg utilizadas por los motores analíticos de AWS y los trabajos de ETL. Estos optimizadores ofrecen un uso eficiente del almacenamiento, un rendimiento mejorado de las consultas y la administración efectiva de los datos. Existen tres tipos de optimizadores de tablas disponibles en AWS Glue:
Compactación: la compactación de datos compacta archivos de datos pequeños para reducir el uso del almacenamiento y mejorar el rendimiento de lectura. Los archivos de datos se combinan y se reescriben para eliminar los datos obsoletos y consolidar los datos fragmentados en archivos más grandes y eficientes. La compactación se puede configurar para que se ejecute de forma automática o manual según sea necesario.
Retención de instantáneas: las instantáneas son versiones con fecha y hora de una tabla de Iceberg. Las configuraciones de retención de instantáneas permiten a los clientes determinar cuánto tiempo se deben retener las instantáneas y cuántas instantáneas retener. La configuración de un optimizador de retención de instantáneas puede ayudar a administrar la sobrecarga de almacenamiento mediante la eliminación de las instantáneas antiguas e innecesarias y sus correspondientes archivos subyacentes.
Eliminación de archivos huérfanos: los archivos huérfanos son archivos a los que los metadatos de la tabla de Iceberg ya no hacen referencia. Con el tiempo, estos archivos se pueden acumular, sobre todo después de operaciones como la eliminación de tablas o los errores en los trabajos de ETL. Habilitar la eliminación de archivos huérfanos permite a AWS Glue identificar y eliminar periódicamente estos archivos innecesarios y así liberar espacio de almacenamiento.
Puede activar o desactivar la compactación, la retención de instantáneas y la eliminación de archivos huérfanos para tablas de Iceberg individuales en el Catálogo de datos mediante la consola de AWS Glue, la AWS CLI o las operaciones de la API de AWS Glue.
En el siguiente video se muestra cómo configurar optimizadores para tablas de Iceberg en el Catálogo de datos.