Eliminación de archivos huérfanos - AWS Glue

Eliminación de archivos huérfanos

AWS Glue Data Catalog le permite eliminar archivos huérfanos de sus tablas de Iceberg. Los archivos huérfanos son archivos sin referencias que existen en su origen de datos de Amazon S3 en la ubicación de la tabla especificada, que no están registrados en los metadatos de la tabla de Iceberg y que son más antiguos que el límite de edad que usted configuró. Con el tiempo, estos archivos huérfanos pueden acumularse debido a errores en operaciones como la compactación, la eliminación de particiones o la reescritura de tablas, y ocupan espacio de almacenamiento innecesario.

El optimizador de eliminación de archivos huérfanos de AWS Glue analiza los metadatos de la tabla y los archivos de datos reales, identifica los archivos huérfanos y los elimina para recuperar espacio de almacenamiento. El optimizador solo elimina los archivos creados después de la fecha de creación del optimizador que también cumplen los criterios de eliminación configurados. Los archivos creados antes de la fecha de creación del optimizador, o en la misma fecha, nunca se eliminan.

Lógica de la eliminación de archivos huérfanos

  1. Verificación de la fecha: compara la fecha de creación del archivo con la fecha de creación del optimizador. Si la fecha de creación del archivo es anterior o igual a la fecha de creación del optimizador, se omite.

  2. Verificación de la configuración del optimizador: si el archivo es más reciente que la fecha de creación del optimizador, lo compara con el límite de edad configurado. El optimizador elimina el archivo si coincide con los criterios de eliminación. Si no cumple los criterios, lo omite.

Para iniciar la eliminación de archivos huérfanos, cree un optimizador de tablas de eliminación de archivos huérfanos en el Catálogo de datos.

importante

De forma predeterminada, la eliminación de archivos huérfanos evalúa cada archivo en la ubicación de la tabla AWS Glue. Si bien puede configurar un subprefijo para limitar el alcance de la evaluación mediante el uso de un parámetro de API, asegúrese de que la ubicación de la tabla no contenga archivos de otros orígenes de datos o tablas. Si la ubicación de la tabla se superpone con otros orígenes de datos, es probable que el servicio identifique y elimine archivos que no estén relacionados como si fueran huérfanos.