As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Formatos e limitações compatíveis para compactação gerenciada de dados
Para obter melhor performance de leitura por serviços de análise da AWS, como Amazon Athena, Amazon EMR e trabalhos de ETL do AWS Glue, o AWS Glue Data Catalog oferece compactação gerenciada (um processo que compacta pequenos objetos do Amazon S3 em objetos maiores) para tabelas do Iceberg no catálogo de dados.
A compactação de dados aceita uma variedade de tipos de dados e formatos de compactação para leitura e gravação de dados, incluindo a leitura de dados de tabelas criptografadas.
A compactação de dados suporta:
Tipos de arquivo: Parquet
Tipos de dados: Booleano, Inteiro, Longo, Flutuante, Duplo, String, Decimal, Data, Hora, Timestamp, String, UUID, Binário
Compactação: zstd, gzip, snappy, não compactado
Criptografia: a compactação de dados oferece suporte somente à criptografia padrão do Amazon S3 (SSE-S3) e a criptografia do KMS no lado do servidor (SSE-KMS).
Compactação do compartimento
Evolução do esquema
Tabelas com tamanho de arquivo de destino (propriedade write.target-file-size-bytes na configuração iceberg) dentro do intervalo inclusivo de 128 MB a 512 MB.
Regiões
Ásia-Pacífico (Tóquio)
Ásia-Pacífico (Seul)
Ásia-Pacífico (Mumbai)
Ásia-Pacífico (Singapura)
Europa (Irlanda)
Europa (Londres)
Europa (Frankfurt)
Leste dos EUA (Norte da Virgínia)
Leste dos EUA (Ohio)
Oeste dos EUA (N. da Califórnia)
América do Sul (São Paulo)
-
Você pode executar a compactação a partir da conta em que o catálogo de dados reside quando o bucket do Amazon S3 que armazena os dados subjacentes estiver em outra conta. Para fazer isso, a função de compactação exige acesso ao bucket do Amazon S3.
Atualmente, a compactação de dados não oferece suporte a:
Tipos de arquivo: Avro, ORC
Tipos de dados: Fixo
Compactação: brotli, lz4
Compactação de arquivos enquanto a especificação da partição evolui.
Classificação regular ou classificação por ordem z
Mesclar ou excluir arquivos: o processo de compactação ignora os arquivos de dados que têm arquivos excluídos associados a eles.
-
Compactação em tabelas de contas cruzadas: não é possível executar a compactação em tabelas de contas cruzadas.
-
Compactação de tabelas entre regiões: não é possível executar a compactação de tabelas entre regiões.
Habilitando a compactação em links de recursos
Endpoints da VPC para buckets do Amazon S3
-
Gerenciador de bloqueio do DynamoDB
: quando a compactação de dados é usada, nenhum outro trabalho de carregamento de dados deve usar lock-impl
, como org.apache.iceberg.aws.dynamodb.DynamodBlockManager.