Otimizadores de tabelas em nível de catálogo - AWS Glue

Otimizadores de tabelas em nível de catálogo

Com uma configuração única do catálogo, você pode definir otimizadores automáticos, como compactação, retenção de snapshot e exclusão de arquivos órfãos para todas as tabelas do Apache Iceberg novas e atualizadas no AWS Glue Data Catalog. As configurações do otimizador no nível do catálogo permitem aplicar configurações consistentes do otimizador em todas as tabelas de um catálogo, eliminando a necessidade de configurar otimizadores individualmente para cada tabela.

Os administradores do data lake podem configurar os otimizadores de tabela selecionando o catálogo padrão no console do Lake Formation e habilitando os otimizadores usando a opção Table optimization. Quando você cria novas tabelas ou atualiza tabelas existentes no Catálogo de dados, este executa automaticamente as otimizações da tabela para reduzir a carga operacional.

Se você configurou a otimização no nível da tabela ou se excluiu anteriormente as configurações de otimização de uma tabela, essas configurações específicas da tabela terão precedência sobre as configurações padrão do catálogo para otimização de tabelas. Se um parâmetro de configuração não estiver definido no nível da tabela ou do catálogo, o valor da propriedade da tabela do Iceberg será aplicado. Essa configuração é aplicável à retenção de snapshots e ao otimizador de exclusão de arquivos órfãos.

Ao habilitar otimizadores no nível do catálogo, considere o seguinte:

  • Quando você configura as definições de otimização no momento da criação do catálogo e, posteriormente, desabilita as otimizações por meio de uma solicitação de atualização do catálogo, a operação será aplicada em cascata a todas as tabelas do catálogo.

  • Se você já configurou otimizadores para uma determinada tabela, a operação de desabilitação no nível do catálogo não afetará essa tabela.

  • Quando você desabilita os otimizadores no nível do catálogo, as tabelas com configurações de otimizador existentes mantêm suas configurações específicas e não são afetadas pela alteração no nível do catálogo. No entanto, as tabelas sem suas próprias configurações de otimizador herdarão o estado desabilitado do nível do catálogo.

  • Como os otimizadores de retenção de snapshots e exclusão de arquivos órfãos podem ser baseados em agendamentos, as atualizações introduzirão um atraso aleatório no início do agendamento. Isso fará com que cada otimizador inicie em momentos ligeiramente diferentes, distribuindo a carga e reduzindo a probabilidade de exceder os limites do serviço.