本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Apache Iceberg 里面的桌子 AWS Clean Rooms
Apache Iceberg 是一种用于数据湖的开源表格式。 AWS Clean Rooms 可以使用存储在中的统计信息 Apache Iceberg 元数据用于优化查询计划并减少无尘室查询处理期间的文件扫描。有关更多信息,请参阅 Apache Iceberg
AWS Clean Rooms 与 Iceberg 表一起使用时,请考虑以下几点:
-
AWS Glue Data Catalog 唯一的桌子 — Apache Iceberg 必须在 AWS Glue Data Catalog 基于开源胶水目录实现
的中定义表。 -
Parquet 文件格式 — AWS Clean Rooms 仅支持 Parquet 数据文件格式的 Iceberg 表。
-
GZIP和 Snappy 压缩 — AWS Clean Rooms 支持带和的 Parquet GZIP Snappy 压缩。
-
Iceberg 版本 — AWS Clean Rooms 支持对版本 1 和版本 2 的 Iceberg 表运行查询。
-
分区 — 您无需为自己的分区手动添加分区 Apache Iceberg 中的桌子 AWS Glue。 AWS Clean Rooms 检测到中的新分区 Apache Iceberg 自动生成表,无需手动操作即可更新表定义中的分区。Iceberg 分区在 AWS Clean Rooms 表架构中显示为常规列,而不是在配置表架构中单独显示为分区键。
-
限制
-
仅限全新 Iceberg 表
Apache Iceberg 表格转换自 Apache Parquet 不支持表。
-
时间旅行查询
AWS Clean Rooms 不支持时空旅行查询 Apache Iceberg 桌子。
-
Athena 引擎版本 2
Iceberg 不支持使用 Athena 引擎版本 2 创建的表。
-
文件格式
Avro 且不支持优化的行列 (ORC) 文件格式。
-
压缩
Zstandard (Zstd) 压缩适用于 Parquet 不支持。
-
支持的 Iceberg 表数据类型
AWS Clean Rooms 可以查询 Iceberg 包含以下数据类型的表:
-
boolean
-
date
-
decimal
-
double
-
float
-
int
-
list
-
long
-
map
-
string
-
struct
-
timestamp without time zone
有关 Iceberg 数据类型的更多信息,请参阅 Apache 文档中的 Schemas for Iceberg