优化 Iceberg 表的查询性能 - AWS Glue

优化 Iceberg 表的查询性能

Apache Iceberg 是一种面向超大型分析数据集的高性能开放表格式。AWS Glue 支持计算和更新 Iceberg 表中每列的不重复值(NDV)数量。借助这些统计数据,可以为处理大型数据集的数据工程师和科学家提供更好的查询优化、数据管理和性能效率。

AWS Glue 会估算 Iceberg 表中每列的不重复值数量,并在 Amazon S3 中将结果存储与 Iceberg 表快照关联的 Puffin 文件中。Puffin 是一种 Iceberg 文件格式,专用于存储索引、统计数据和草图等元数据。通过将草图存储在与快照关联的 Puffin 文件中,可确保事务处理的一致性和 NDV 统计数据的新鲜度。

您可以使用 AWS Glue 控制台或 AWS CLI 来配置运行列统计数据生成任务。启动该进程时,AWS Glue 将在后台启动一个 Spark 作业并更新 Data Catalog 中的 AWS Glue 表元数据。您可以使用 AWS Glue 控制台、AWS CLI 或通过调用 GetColumnStatisticsForTable API 操作来查看列统计数据。

注意

如果使用 AWS Lake Formation 权限来控制对表的访问权限,则列统计数据任务代入的角色需要拥有表的完全访问权限才能生成统计数据。

另请参阅