Apache Iceberg tablas en AWS Clean Rooms - AWS Clean Rooms

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Apache Iceberg tablas en AWS Clean Rooms

Apache Iceberg es un formato de tabla de código abierto para lagos de datos. AWS Clean Rooms puede utilizar las estadísticas almacenadas en Apache Iceberg metadatos para optimizar los planes de consultas y reducir el escaneo de archivos durante el procesamiento de consultas en sala limpia. Para obtener más información, consulte la documentación de Apache Iceberg.

Tenga en cuenta lo siguiente cuando las utilice AWS Clean Rooms con tablas Iceberg:

  • Tablas dentro del AWS Glue Data Catalog único: Apache Iceberg las tablas deben definirse en AWS Glue Data Catalog función de la implementación del catálogo Glue de código abierto.

  • Formato de archivo Parquet: AWS Clean Rooms solo admite tablas Iceberg en el formato de archivo de datos Parquet.

  • GZIPy compresión rápida: AWS Clean Rooms admite Parquet con y GZIP Snappy compresión.

  • Versiones Iceberg: AWS Clean Rooms permite ejecutar consultas en tablas Iceberg de las versiones 1 y 2.

  • Particiones: no es necesario añadir particiones manualmente a su Apache Iceberg tablas en AWS Glue. AWS Clean Rooms detecta nuevas particiones en Apache Iceberg tablas automáticamente y no es necesaria ninguna operación manual para actualizar las particiones en la definición de la tabla. Las particiones de Iceberg aparecen como columnas normales en el esquema de tabla de AWS Clean Rooms , y no por separado como una clave de partición en el esquema de la tabla configurada.

  • Limitaciones

    • Solo tablas de Iceberg nuevas

      Apache Iceberg tablas convertidas desde Apache Parquet no se admiten tablas.

    • Consultas de viaje en el tiempo

      AWS Clean Rooms no admite consultas sobre viajes en el tiempo con Apache Iceberg tablas.

    • Versión 2 del motor Athena

      Iceberg no se admiten las tablas creadas con la versión 2 del motor Athena.

    • Formatos de archivo

      Avro y no se admiten los formatos de archivo Optimized Row Columnar (ORC).

    • Compresión

      Zstandard Compresión (Zstd) para Parquet no se admite.

Tipos de datos admitidos para las tablas de Iceberg

AWS Clean Rooms puede consultar Iceberg tablas que contienen los siguientes tipos de datos:

  • boolean

  • date

  • decimal

  • double

  • float

  • int

  • list

  • long

  • map

  • string

  • struct

  • timestamp without time zone

Para obtener más información sobre los tipos de datos de Iceberg, consulte los esquemas para Iceberg en la documentación de Apache.