Esta seção inclui considerações a serem feitas quando forem usados otimizadores de tabela no AWS Glue Data Catalog.
Formatos e limitações compatíveis para compactação gerenciada de dados
A compactação de dados aceita uma variedade de tipos de dados e formatos de compactação para leitura e gravação de dados, incluindo a leitura de dados de tabelas criptografadas.
A compactação de dados suporta:
Criptografia: a compactação de dados oferece suporte somente à criptografia padrão do Amazon S3 (SSE-S3) e a criptografia do KMS no lado do servidor (SSE-KMS).
Compactação do compartimento
-
Você pode executar a compactação a partir da conta em que o catálogo de dados reside quando o bucket do Amazon S3 que armazena os dados subjacentes estiver em outra conta. Para fazer isso, a função de compactação exige acesso ao bucket do Amazon S3.
Atualmente, a compactação de dados não oferece suporte a:
Classificação regular ou classificação por ordem z
-
Compactação em tabelas de contas cruzadas: não é possível executar a compactação em tabelas de contas cruzadas.
-
Compactação de tabelas entre regiões: não é possível executar a compactação de tabelas entre regiões.
Habilitando a compactação em links de recursos
-
Tabelas na classe de armazenamento Amazon S3 Express One Zone: você não pode executar compactação nas tabelas do iceberg do S3 Express One Zone.
Considerações sobre otimizadores de retenção de snapshots e exclusão de arquivos órfãos
A consideração a seguir se aplica ao otimizador de retenção de snapshots e exclusão de arquivos órfãos.
Os processos de retenção de snapshots e exclusão de arquivos órfãos têm um limite máximo de exclusão de 1 milhão de arquivos por execução. Ao excluir snapshots expirados, se o número de arquivos elegíveis para exclusão ultrapassar 1 milhão, todos os arquivos restantes além desse limite continuarão existindo no armazenamento da tabela como arquivos órfãos.
-
Os snapshots serão preservados pelo otimizador de retenção de snapshots somente quando ambos os critérios forem satisfeitos: o número mínimo de snapshots a serem mantidos e o período de retenção especificado.
-
O otimizador de retenção de snapshots exclui metadados de snapshots expirados do Apache Iceberg, evitando consultas de viagem no tempo para snapshots expirados e, opcionalmente, excluindo arquivos de dados associados.
-
O otimizador de exclusão de arquivos órfãos exclui dados órfãos e arquivos de metadados que não são mais referenciados pelos metadados do Iceberg se a hora de criação for anterior ao período de retenção da exclusão de arquivos órfãos a partir do momento da execução do otimizador.
-
O Apache Iceberg facilita o controle de versão por meio de ramificações e tags, que são denominadas ponteiros para estados específicos de snapshots. Cada ramificação e tag segue seu próprio ciclo de vida independente, regido por políticas de retenção definidas em seus respectivos níveis. Os otimizadores do AWS Glue Data Catalog levam em consideração essas políticas de ciclo de vida, garantindo a adesão às regras de retenção especificadas. As políticas de retenção em nível de ramificação e tag têm precedência sobre as configurações do otimizador.
Para obter mais informações, consulte a seção Ramificações e marcações
na documentação do Iceberg. -
Os otimizadores de retenção de snapshots e exclusão de arquivos órfãos excluirão os arquivos elegíveis para limpeza de acordo com os parâmetros configurados. Melhore seu controle sobre a exclusão de arquivos implementando políticas de controle de versão e ciclo de vida do S3 nos buckets apropriados.
Para obter instruções detalhadas sobre como configurar o controle de versão e criar regras de ciclo de vida, consulte https://docs.aws.amazon.com/AmazonS3/latest/userguide/Versioning.html.