为创建并运行 Amazon DataZone 数据源 AWS Glue Data Catalog - Amazon DataZone

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为创建并运行 Amazon DataZone 数据源 AWS Glue Data Catalog

在 Amazon 中 DataZone,您可以创建 AWS Glue Data Catalog 数据源,以便从中导入数据库表的技术元数据 AWS Glue。要为添加数据源 AWS Glue Data Catalog,源数据库必须已存在于 AWS Glue。

创建和运行 AWS Glue 数据源时,会将源 AWS Glue 数据库中的资产添加到您的 Amazon DataZone 项目的库存中。您可以按设定的时间表或按需运行 AWS Glue 数据源,以创建或更新资产的技术元数据。在数据源运行期间,您可以选择将您的资产发布到 Amazon DataZone 目录,从而使所有域用户都能发现这些资产。您也可以在编辑项目清单资产的业务元数据后发布这些资产。域用户可以搜索和发现您发布的资产,并申请订阅这些资产。

添加 AWS Glue 数据源
  1. 导航至 Amazon DataZone 数据门户 URL,然后使用单点登录 (SSO) 或凭证登录 AWS 。如果您是亚马逊 DataZone 管理员,则可以通过 https://console.aws.amazon.com/datazone 导航到亚马逊 DataZone 控制台,使用域名创建 AWS 账户 地登录,然后选择打开数据门户

  2. 从顶部导航窗格中选择 “选择项目”,然后选择要向其中添加数据源的项目。

  3. 导航到项目的 “数据” 选项卡。

  4. 从左侧导航窗格中选择数据源,然后选择创建数据源

  5. 配置以下字段:

    • 名称-数据源名称。

    • 描述-数据源描述。

  6. 在 “数据源类型” 下,选择AWS Glue

  7. “选择环境” 下,指定要在其中发布 AWS Glue 表的环境。

  8. 数据选择下,提供一个 AWS Glue 数据库并输入您的表选择标准。例如,如果您选择 Incl u de 并输入*corporate,则数据库将包括所有以该词结尾的源表corporate

    您可以从下拉列表中选择一个 AWS Glue 数据库,也可以键入数据库名称。下拉列表包括两个数据库:发布数据库和环境的订阅数据库。如果要从不是由环境创建的数据库中提取资产,则必须键入数据库的名称,而不是从下拉列表中进行选择。

    您可以为单个数据库中的表添加多个包含和排除规则。您也可以使用 “添加其他数据库” 按钮添加多个数据库

  9. 在 “数据质量” 下,您可以选择为此数据源启用数据质量。如果您这样做,亚马逊会将您现有的 AWS Glue 数据质量输出 DataZone导入您的亚马逊 DataZone目录中。默认情况下,亚马逊会从 AWS Glue DataZone 导入现有 100 份没有有效期的最新 100 份质量报告。

    Amazon 的数据质量指标 DataZone 可帮助您了解数据源的完整性和准确性。亚马逊从 AWS G DataZone lue 中提取这些数据质量指标,以便在某个时间点(例如在搜索业务数据目录期间)提供背景信息。数据用户可以看到其订阅资产的数据质量指标如何随着时间的推移而变化。数据生成者可以按计划获 AWS 取 Glue 数据质量分数。亚马逊 DataZone 企业数据目录还可以通过数据质量 API 显示来自第三方系统的数据质量指标。有关更多信息,请参阅Amazon 的数据质量 DataZone

  10. 选择下一步

  11. 对于发布设置,选择是否可以在业务数据目录中立即发现资产。如果您只将它们添加到库存中,则可以稍后选择订阅条款并将其发布到业务数据目录中。有关更多信息,请参阅 管理现有的 Amazon DataZone 数据源

  12. 对于自动生成企业名称,请选择是否在从来源导入资产时自动生成元数据。

  13. (可选)对于元数据表单,添加表单以定义在资产导入 Amazon 时收集和保存的元数据 DataZone。有关更多信息,请参阅 创建、编辑或删除元数据表单

  14. 在 “运行” 首选项中,选择何时运行数据源。

    • 按计划运行-指定运行数据源的日期和时间。

    • 按需运行-您可以手动启动数据源运行。

  15. 选择下一步

  16. 查看您的数据源配置并选择创建

注意

创建 AWS Glue 数据源时,亚马逊 DataZone 会为环境的 IAM 角色创建 Lake Formation “只读” 权限,该角色用于创建数据源,以访问数据源中使用的 G AWS lue 数据库中的所有表。您可以在环境详细信息页面的数据源下监控这些授权的状态。在向发布环境的 IAM 角色授予访问权限时,亚马逊会向 AWS Glue 数据库 DataZone 添加以下 AWS 标签:DataZoneDiscoverable_${domainId}: true

对于在 Amazon 当前版本之前创建的环境 DataZone,项目成员将无法在 Amazon Athena 中看到已授权的表。