优化 Iceberg 表的查询性能
Apache Iceberg 是一种面向超大型分析数据集的高性能开放表格式。AWS Glue 支持计算和更新 Iceberg 表中每列的不重复值(NDV)数量。借助这些统计数据,可以为处理大型数据集的数据工程师和科学家提供更好的查询优化、数据管理和性能效率。
AWS Glue 会估算 Iceberg 表中每列的不重复值数量,并在 Amazon S3 中将结果存储与 Iceberg 表快照关联的 Puffin
您可以使用 AWS Glue 控制台或 AWS CLI 来配置运行列统计数据生成任务。启动该进程时,AWS Glue 将在后台启动一个 Spark 作业并更新 Data Catalog 中的 AWS Glue 表元数据。您可以使用 AWS Glue 控制台、AWS CLI 或通过调用 GetColumnStatisticsForTable API 操作来查看列统计数据。
注意
如果使用 AWS Lake Formation 权限来控制对表的访问权限,则列统计数据任务代入的角色需要拥有表的完全访问权限才能生成统计数据。