Apache Iceberg 里面的桌子 AWS Clean Rooms - AWS Clean Rooms

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

Apache Iceberg 里面的桌子 AWS Clean Rooms

Apache Iceberg 是一种用于数据湖的开源表格式。 AWS Clean Rooms 可以使用存储在中的统计信息 Apache Iceberg 元数据用于优化查询计划并减少无尘室查询处理期间的文件扫描。有关更多信息,请参阅 Apache Iceberg 文档。

AWS Clean Rooms 与 Iceberg 表一起使用时,请考虑以下几点:

  • AWS Glue Data Catalog 唯一的桌子 — Apache Iceberg 必须在 AWS Glue Data Catalog 基于开源胶水目录实现的中定义表。

  • Parquet 文件格式 — AWS Clean Rooms 仅支持 Parquet 数据文件格式的 Iceberg 表。

  • GZIP和 Snappy 压缩 — AWS Clean Rooms 支持带和的 Parquet GZIP Snappy 压缩。

  • Iceberg 版本 — AWS Clean Rooms 支持对版本 1 和版本 2 的 Iceberg 表运行查询。

  • 分区 — 您无需为自己的分区手动添加分区 Apache Iceberg 中的桌子 AWS Glue。 AWS Clean Rooms 检测到中的新分区 Apache Iceberg 自动生成表,无需手动操作即可更新表定义中的分区。Iceberg 分区在 AWS Clean Rooms 表架构中显示为常规列,而不是在配置表架构中单独显示为分区键。

  • 限制

    • 仅限全新 Iceberg 表

      Apache Iceberg 表格转换自 Apache Parquet 不支持表。

    • 时间旅行查询

      AWS Clean Rooms 不支持时空旅行查询 Apache Iceberg 桌子。

    • Athena 引擎版本 2

      Iceberg 不支持使用 Athena 引擎版本 2 创建的表。

    • 文件格式

      Avro 且不支持优化的行列 (ORC) 文件格式。

    • 压缩

      Zstandard (Zstd) 压缩适用于 Parquet 不支持。

支持的 Iceberg 表数据类型

AWS Clean Rooms 可以查询 Iceberg 包含以下数据类型的表:

  • boolean

  • date

  • decimal

  • double

  • float

  • int

  • list

  • long

  • map

  • string

  • struct

  • timestamp without time zone

有关 Iceberg 数据类型的更多信息,请参阅 Apache 文档中的 Schemas for Iceberg