Excluir arquivos órfãos
O AWS Glue Data Catalog permite que você remova arquivos órfãos de suas tabelas Iceberg. Arquivos órfãos são arquivos não referenciados que existem na sua fonte de dados do Amazon S3 na localização da tabela especificada, não são rastreados pelos metadados da tabela Iceberg e são mais antigos do que o limite de idade configurado. Esses arquivos órfãos podem se acumular com o tempo devido a falhas de operações como compactação, descarte de partições ou regravações de tabelas, além de ocupar espaço de armazenamento desnecessário.
O otimizador de exclusão de arquivos órfãos no AWS Glue verifica os metadados da tabela e os arquivos de dados reais, identifica os arquivos órfãos e os exclui para recuperar espaço de armazenamento. O otimizador remove apenas os arquivos criados após a data de criação do otimizador que também atendam aos critérios de exclusão configurados. Os arquivos criados antes ou na data de criação do otimizador nunca são excluídos.
Lógica de exclusão de arquivos órfãos
Verificação de data: compara a data de criação do arquivo com a data de criação do otimizador. Se o arquivo for anterior ou igual à data de criação do otimizador, ele será ignorado.
Verificação da configuração do otimizador: se o arquivo for mais recente que a data de criação do otimizador, ele será avaliado em relação ao limite de idade configurado. O otimizador exclui o arquivo se ele corresponder aos critérios de exclusão. Ignora o arquivo, se ele não corresponder aos critérios.
Você pode iniciar a exclusão de arquivos órfãos criando um otimizador de tabela de exclusão de arquivos órfãos no Catálogo de Dados.
Importante
Por padrão, a exclusão de arquivos órfãos avalia os arquivos em toda a localização da sua tabela do AWS Glue. Embora você possa configurar um subprefixo para limitar o escopo da avaliação usando o parâmetro API, é necessário garantir que o local da tabela não contenha arquivos de outras fontes de dados ou tabelas. Se a localização da sua tabela se sobrepuser a outras fontes de dados, o serviço poderá identificar e excluir arquivos não relacionados como órfãos.