生成列统计数据 - AWS 连接词

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

生成列统计数据

按照以下步骤,使用 AWS Glue 控制台或 AWS CLI 在 Data Catalog 中生成统计数据。

Console
使用控制台生成列统计数据
  1. 通过以下网址登录到 AWS Glue 控制台:https://console.aws.amazon.com/glue/

  2. 选择 Data Catalog 表。

  3. 从列表中选择一个表。

  4. 操作菜单下依次选择列统计数据按需生成

    您也可以选择页面下半部分的列统计数据选项卡,然后选择生成统计数据按钮。

  5. 生成统计数据页面上,请指定以下选项:

    此屏幕截图显示了可用于生成列统计数据的选项。
    • 所有列 – 选择此选项可生成表中所有列的统计信息。

    • 选定列 – 选择此选项可生成特定列的统计数据。您可以从下拉列表中选择列。

    • 所有行 – 选择表中的所有行以生成准确的统计数据。

    • 样本行 – 仅从表中选择特定百分比的行来生成统计数据。默认值为所有行。使用向上和向下箭头可增加或减少百分比值。

      注意

      我们建议选择表中的所有行,以计算出准确的统计数据。仅在可接受近似值时,才使用样本行来生成列统计数据。

  6. 选择创建新的 IAM 角色,创建具有所需权限策略的 IAM 角色,来运行列统计信息生成任务。选择“查看权限详细信息”,查看政策声明。您还可以从列表中选择 IAM 角色。有关所需权限的更多信息,请参阅 生成列统计数据的先决条件

    AWS Glue 代入您指定的角色权限,生成统计信息。

    有关为 AWS Glue 提供角色的更多信息,请参阅 Identity-based policies for AWS Glue

  7. (可选)然后选择一种安全配置来启用日志静态加密。

  8. 选择生成统计数据以运行任务。

AWS CLI

在以下示例中,请将 DatabaseNameTableNameColumnNameList 的值替换为实际的数据库名、表名和列名。请将账户 ID 替换为有效的 AWS 账户,将角色名称替换为您用于生成统计数据的 IAM 角色名称。

aws glue start-column-statistics-task-run --input-cli-json file://input.json { "DatabaseName": "<test-db>", "TableName": "<test-table>", "ColumnNameList": [ "<column1>", "<column2>", ], "Role": "arn:aws:iam::<123456789012>:role/<Stats-Role>", "SampleSize": 10.0 }

您还可以通过调用 StartColumnStatisticsTaskRun 操作来生成列统计数据。