Otimizar tabelas Iceberg - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Otimizar tabelas Iceberg

Os data lakes do Amazon S3 usando formatos de tabela aberta, como o Apache Iceberg, armazenam os dados como objetos do Amazon S3. Ter milhares de pequenos objetos Amazon S3 em uma tabela de data lake aumenta a sobrecarga de metadados nas tabelas Iceberg e afeta o desempenho de leitura. Para melhor desempenho de leitura por serviços de análise da AWS, como o Amazon Athena e o Amazon EMR, e trabalhos de ETL do AWS Glue, o AWS Glue Data Catalog fornece compactação gerenciada (um processo que compacta pequenos objetos do Amazon S3 em objetos maiores) para tabelas Iceberg no catálogo de dados. Você pode usar o console do Lake Formation, o console do AWS Glue, a AWS CLI ou a API da AWS para ativar ou desativar a compactação de tabelas individuais do Iceberg que estão no catálogo de dados.

O otimizador de tabelas monitora constantemente as partições da tabela e inicia o processo de compactação quando o limite é excedido para o número de arquivos e tamanhos de arquivo. Uma tabela do Iceberg se qualificará para compactação se o tamanho de arquivo especificado na propriedade write.target-file-size-bytes estiver dentro do intervalo de 128 MB a 512 MB. No Catálogo de Dados, o processo de compactação começará se a tabela tiver mais de cinco arquivos, cada um menor que 75% da propriedade write.target-file-size-bytes.

Por exemplo, você tem uma tabela com o limite de tamanho de arquivo definido como 512 MB na propriedade write.target-file-size-bytes (dentro do intervalo prescrito de 128 MB a 512 MB), e a tabela contém 10 arquivos. Se 6 dos 10 arquivos tiverem menos de 384 MB (0,75 x 512) cada, o Catálogo de Dados acionará a compactação.

O catálogo de dados executa a compactação sem interferir nas consultas simultâneas. O catálogo de dados oferece suporte à compactação de dados somente para tabelas no formato Parquet.

Para conhecer tipos de dados, formatos de compactação e limitações compatíveis, consulte Formatos e limitações compatíveis para compactação gerenciada de dados .