Usando Apache Iceberg tabelas em AWS Clean Rooms - AWS Clean Rooms

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usando Apache Iceberg tabelas em AWS Clean Rooms

Apache Icebergé um formato de tabela de código aberto para data lakes. AWS Clean Rooms pode usar as estatísticas armazenadas nos Apache Iceberg metadados para otimizar os planos de consulta e reduzir as varreduras de arquivos durante o processamento de consultas em sala limpa. Para obter mais informações, consulte na documentação do Apache Iceberg.

Considere o seguinte ao usar AWS Clean Rooms com tabelas Iceberg:

  • Tabelas dentro do AWS Glue Data Catalog único — Apache Iceberg as tabelas devem ser definidas no AWS Glue Data Catalog com base na implementação do catálogo de cola de código aberto.

  • Formato de arquivo Parquet — AWS Clean Rooms só suporta tabelas Iceberg no formato de arquivo de dados Parquet.

  • Compressão GZIP e Snappy — AWS Clean Rooms suporta Parquet com GZIP e compressão. Snappy

  • Versões do Iceberg — AWS Clean Rooms suporta a execução de consultas nas tabelas Iceberg da versão 1 e da versão 2.

  • Partições — Você não precisa adicionar partições manualmente às suas Apache Iceberg tabelas. AWS Glue AWS Clean Rooms detecta novas partições nas Apache Iceberg tabelas automaticamente e nenhuma operação manual é necessária para atualizar as partições na definição da tabela. As partições Iceberg aparecem como colunas regulares no esquema da tabela AWS Clean Rooms e não separadamente como uma chave de partição no esquema da tabela configurada.

  • Limitações

    • Somente novas tabelas Iceberg

      Apache Iceberg tabelas convertidas de tabelas Apache Parquet não são suportadas.

    • Consultas de viagem no tempo

      AWS Clean Rooms não suporta consultas de viagem no tempo com Apache Iceberg tabelas.

    • Mecanismo do Athena versão 2

      Iceberg tabelas criadas com a versão 2 do Athena Engine não são suportadas.

    • Formatos de arquivo

      Avro e os formatos de arquivo Optimized Row Columnar (ORC) não são suportados.

    • Compactação

      Zstandard A compactação (Zstd) para Parquet não é suportada.

Tipos de dados suportados para tabelas Iceberg no Athena

AWS Clean Rooms pode consultar Iceberg tabelas que contêm os seguintes tipos de dados:

  • boolean

  • date

  • decimal

  • double

  • float

  • int

  • list

  • long

  • map

  • string

  • struct

  • timestamp without time zone

Para obter mais informações sobre tipos de dados do Iceberg, consulte Esquemas para o Iceberg na documentação do Apache Iceberg.