Formatos e limitações compatíveis para compactação gerenciada de dados - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Formatos e limitações compatíveis para compactação gerenciada de dados

Para obter melhor performance de leitura por serviços de análise da AWS, como Amazon Athena, Amazon EMR e trabalhos de ETL do AWS Glue, o AWS Glue Data Catalog oferece compactação gerenciada (um processo que compacta pequenos objetos do Amazon S3 em objetos maiores) para tabelas do Iceberg no catálogo de dados.

A compactação de dados aceita uma variedade de tipos de dados e formatos de compactação para leitura e gravação de dados, incluindo a leitura de dados de tabelas criptografadas.

A compactação de dados suporta:

  • Tipos de arquivo: Parquet

  • Tipos de dados: Booleano, Inteiro, Longo, Flutuante, Duplo, String, Decimal, Data, Hora, Timestamp, String, UUID, Binário

  • Compactação: zstd, gzip, snappy, não compactado

  • Criptografia: a compactação de dados oferece suporte somente à criptografia padrão do Amazon S3 (SSE-S3) e a criptografia do KMS no lado do servidor (SSE-KMS).

  • Compactação do compartimento

  • Evolução do esquema

  • Tabelas com tamanho de arquivo de destino (propriedade write.target-file-size-bytes na configuração iceberg) dentro do intervalo inclusivo de 128 MB a 512 MB.

  • Regiões

    • Ásia-Pacífico (Tóquio)

    • Ásia-Pacífico (Seul)

    • Ásia-Pacífico (Mumbai)

    • Ásia-Pacífico (Singapura)

    • Europa (Irlanda)

    • Europa (Londres)

    • Europa (Frankfurt)

    • Leste dos EUA (Norte da Virgínia)

    • Leste dos EUA (Ohio)

    • Oeste dos EUA (N. da Califórnia)

    • América do Sul (São Paulo)

  • Você pode executar a compactação a partir da conta em que o catálogo de dados reside quando o bucket do Amazon S3 que armazena os dados subjacentes estiver em outra conta. Para fazer isso, a função de compactação exige acesso ao bucket do Amazon S3.

Atualmente, a compactação de dados não oferece suporte a:

  • Tipos de arquivo: Avro, ORC

  • Tipos de dados: Fixo

  • Compactação: brotli, lz4

  • Compactação de arquivos enquanto a especificação da partição evolui.

  • Classificação regular ou classificação por ordem z

  • Mesclar ou excluir arquivos: o processo de compactação ignora os arquivos de dados que têm arquivos excluídos associados a eles.

  • Compactação em tabelas de contas cruzadas: não é possível executar a compactação em tabelas de contas cruzadas.

  • Compactação de tabelas entre regiões: não é possível executar a compactação de tabelas entre regiões.

  • Habilitando a compactação em links de recursos

  • Endpoints da VPC para buckets do Amazon S3

  • Gerenciador de bloqueio do DynamoDB: quando a compactação de dados é usada, nenhum outro trabalho de carregamento de dados deve usar lock-impl, como org.apache.iceberg.aws.dynamodb.DynamodBlockManager.