亚马逊 DataZone 快速入门 Glue AWS 数据 - Amazon DataZone

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

亚马逊 DataZone 快速入门 Glue AWS 数据

第 1 步-创建 Amazon DataZone 域名和数据门户

本节介绍为此工作流程创建 Amazon DataZone 域和数据门户的步骤。

完成以下步骤以创建 Amazon DataZone 域名。有关 Amazon DataZone 域名的更多信息,请参阅Amazon DataZone 术语和概念

  1. 导航到亚马逊 DataZone 控制台 https://console.aws.amazon.com/datazone,登录,然后选择创建域名

    注意

    如果您想在此工作流程中使用现有 Amazon DataZone 域名,请选择查看域名,然后选择要使用的域名,然后继续执行创建发布项目的第 2 步。

  2. 创建域名页面上,为以下字段提供值:

    • 名称-为您的域名指定一个名称。就此工作流程而言,您可以将此域名命名为 “营销”。

    • 描述-指定可选的域描述。

    • 数据加密-默认情况下,您的数据使用为您 AWS 拥有和管理的密钥进行加密。对于此用例,您可以保留默认的数据加密设置。

      有关使用客户托管密钥的更多信息,请参阅Amazon 的静态数据加密 DataZone。如果您使用自己的 KMS 密钥进行数据加密,则必须在默认值中包含以下语句AmazonDataZoneDomainExecutionRole

      { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "kms:Decrypt", "kms:GenerateDataKey" ], "Resource": "*" } ] }
    • 服务访问权限-在默认情况下保持所选的 “使用默认角色” 选项不变。

      注意

      如果您在此工作流程中使用现有 Amazon DataZone 域名,则可以选择 “使用现有服务角色” 选项,然后从下拉菜单中选择现有角色。

    • 在 “快速设置” 下,选择 “设置此帐户以使用和发布数据”。此选项启用内置的 Amazon 数据湖数据仓库 DataZone 蓝图,并为该账户配置所需的权限、资源、默认项目以及默认数据湖和数据仓库环境配置文件。有关 Amazon DataZone 蓝图的更多信息,请参阅Amazon DataZone 术语和概念

    • 保持 “权限详情” 下的其余字段不变。

      注意

      如果您已有 Amazon DataZone 域名,则可以选择 “使用现有服务角色” 选项,然后从 Glue 管理访问角色、Redshift 管理访问角色配置角色的下拉菜单中选择现有角色

    • 保持 “标签” 下的字段不变。

    • 选择创建域

  3. 成功创建域后,选择此域,然后在该域的摘要页面上记下该域的数据门户 URL。您可以使用此 URL 访问您的 Amazon DataZone 数据门户,以完成此工作流程中的其余步骤。您也可以通过选择打开数据门户来导航到数据门户

注意

在当前版本的 Amazon 中 DataZone,一旦创建了域,就无法修改为数据门户生成的 URL。

域名创建可能需要几分钟才能完成。等待域的状态变为 “可用”,然后再继续下一步。

第 2 步-创建发布项目

本节介绍为此工作流程创建发布项目所需的步骤。

  1. 完成上述第 1 步并创建域名后,您将看到 “欢迎来到亚马逊 DataZone! 窗口。在此窗口中,选择创建项目

  2. 例如,为该工作流程指定项目名称,您可以为其命名 SalesDataPublishingProject,然后将其余字段保持不变,然后选择 “创建”。

步骤 3-创建环境

本节介绍为此工作流程创建环境所需的步骤。

  1. 完成上述步骤 2 并创建项目后,您将看到 “您的项目已准备就绪” 窗口。在此窗口中,选择创建环境

  2. 创建环境页面上,指定以下内容,然后选择创建环境

  3. 为以下各项指定值:

    • 名称-指定环境的名称。在本演练中,你可以调用它Default data lake environment

    • 描述-为环境指定描述。

    • 环境配置文件-选择DataLakeProfile环境配置文件。这使您能够在此工作流程 DataZone 中使用亚马逊来处理亚马逊 S3、 AWS Glue Catalog 和 Amazon Athena 中的数据。

    • 在本演练中,请保持其余字段不变。

  4. 选择创建环境

第 4 步-生成数据以供发布

本节介绍生成要在此工作流程中发布的数据所需的步骤。

  1. 完成上述第 3 步后,在SalesDataPublishingProject项目中,在右侧面板的 “分析工具” 下,选择 Amazon Athena。这将使用项目的凭据打开 Athena 查询编辑器进行身份验证。确保在 Amazon 环境下拉列表中选择了您的发布 DataZone 环境,并按照查询编辑器中的方式选择了<environment_name>%_pub_db数据库。

  2. 在本演练中,您将使用 “按选择创建表” (CTAS) 查询脚本来创建要发布到 Amazon 的新表。 DataZone在查询编辑器中,执行此 CTAS 脚本来创建一个可以发布并可供搜索和订阅的mkt_sls_table表。

    CREATE TABLE mkt_sls_table AS SELECT 146776932 AS ord_num, 23 AS sales_qty_sld, 23.4 AS wholesale_cost, 45.0 as lst_pr, 43.0 as sell_pr, 2.0 as disnt, 12 as ship_mode,13 as warehouse_id, 23 as item_id, 34 as ctlg_page, 232 as ship_cust_id, 4556 as bill_cust_id UNION ALL SELECT 46776931, 24, 24.4, 46, 44, 1, 14, 15, 24, 35, 222, 4551 UNION ALL SELECT 46777394, 42, 43.4, 60, 50, 10, 30, 20, 27, 43, 241, 4565 UNION ALL SELECT 46777831, 33, 40.4, 51, 46, 15, 16, 26, 33, 40, 234, 4563 UNION ALL SELECT 46779160, 29, 26.4, 50, 61, 8, 31, 15, 36, 40, 242, 4562 UNION ALL SELECT 46778595, 43, 28.4, 49, 47, 7, 28, 22, 27, 43, 224, 4555 UNION ALL SELECT 46779482, 34, 33.4, 64, 44, 10, 17, 27, 43, 52, 222, 4556 UNION ALL SELECT 46779650, 39, 37.4, 51, 62, 13, 31, 25, 31, 52, 224, 4551 UNION ALL SELECT 46780524, 33, 40.4, 60, 53, 18, 32, 31, 31, 39, 232, 4563 UNION ALL SELECT 46780634, 39, 35.4, 46, 44, 16, 33, 19, 31, 52, 242, 4557 UNION ALL SELECT 46781887, 24, 30.4, 54, 62, 13, 18, 29, 24, 52, 223, 4561

    确保在左侧的 “表和视图” 部分成功创建 mkt_sls_ table 表。现在,您有了可以发布到 Amazon DataZone 目录中的数据资产。

第 5 步-从 AWS Glue 收集元数据

本节介绍为该工作流程从 AWS Glue 收集元数据的步骤。

  1. 完成上述步骤 4 后,在 Amazon DataZone 数据门户中,选择SalesDataPublishingProject项目,然后选择 “数据” 选项卡,然后在左侧面板中选择 “数据源”。

  2. 选择在环境创建过程中创建的源。

  3. 选择 “操作” 下拉菜单旁边的 “运行”,然后选择 “刷新” 按钮。数据源运行完成后,资产将添加到 Amazon DataZone 库存中。

第 6 步-整理并发布数据资产

本节介绍在此工作流程中整理和发布数据资产的步骤。

  1. 完成上述步骤 5 后,在 Amazon DataZone 数据门户中,选择您在上一步中创建的SalesDataPublishingProject项目,选择 “数据” 选项卡,在左侧面板中选择 “库存数据”,然后找到mkt_sls_table表格。

  2. 打开mkt_sls_table资产的详细信息页面,查看自动生成的公司名称。选择 “自动生成的元数据” 图标可查看资源和列的自动生成的名称。您可以单独接受或拒绝每个名称,也可以选择 “全部接受” 以应用生成的名称。或者,您也可以将可用的元数据表单添加到您的资产中,并选择词汇表术语来对数据进行分类。

  3. 选择 “发布资源” 以发布该mkt_sls_table资源。

步骤 7-创建用于数据分析的项目

本节介绍创建用于数据分析的项目的步骤。这是此工作流程中数据使用者步骤的开始。

  1. 完成上述步骤 6 后,在 Amazon DataZone 数据门户中,从项目下拉菜单中选择创建项目

  2. 创建项目页面上,指定项目名称,例如,您可以为此工作流程命名 MarketingDataAnalysisProject,然后将其余字段保持不变,然后选择创建

步骤 8-创建数据分析环境

本节介绍创建数据分析环境的步骤。

  1. 完成上述步骤 7 后,在 Amazon DataZone 数据门户中,选择MarketingDataAnalysisProject项目,然后选择环境选项卡,然后选择创建环境

  2. 创建环境页面上,指定以下内容,然后选择创建环境

    • 名称-指定环境的名称。在本演练中,你可以调用它Default data lake environment

    • 描述-为环境指定描述。

    • 环境配置文件-选择内置DataLakeProfile环境配置文件。

    • 在本演练中,请保持其余字段不变。

步骤 9-搜索数据目录并订阅数据

本节介绍搜索数据目录和订阅数据的步骤。

  1. 完成上述步骤 8 后,在亚马逊 DataZone 数据门户中,选择亚马逊 DataZone图标,然后在亚马逊 DataZone 搜索字段中,使用数据门户搜索栏中的关键词(例如 “目录” 或 “销售”)搜索数据资产。

    如有必要,应用筛选器或排序,找到产品销售数据资产后,即可选择它来打开该资产的详细信息页面。

  2. 目录销售数据资产的详细信息页面上,选择订阅

  3. 在 “订阅” 对话框中,从下拉列表中选择您的MarketingDataAnalysisProject消费者项目,然后指定订阅请求的原因,然后选择 “订阅”。

第 10 步-批准订阅请求

本节介绍批准订阅请求的步骤。

  1. 完成上述步骤 9 后,在 Amazon DataZone 数据门户中,选择用于发布资产的SalesDataPublishingProject项目。

  2. 选择数据选项卡,然后选择已发布的数据,然后选择传入请求

  3. 现在,您可以看到需要批准的新请求所在的行。选择 “查看请求”。提供批准理由,然后选择批准

步骤 11-在 Amazon Athena 中创建查询并分析数据

现在,您已成功将资产发布到 Amazon DataZone 目录并订阅了该资产,您可以对其进行分析。

  1. 在亚马逊 DataZone 数据门户中,选择您的MarketingDataAnalysisProject消费者项目,然后从右侧面板的 “分析工具” 下,选择 Amazon Athena 的 “查询数据” 链接。这将使用项目的身份验证凭证打开 Amazon Athena 查询编辑器。从查询编辑器的 Amazon Environment 下拉列表中选择使用MarketingDataAnalysisProject者 DataZone 环境,然后<environment_name>%sub_db从数据库下拉列表中选择您的项目。

  2. 现在,您可以对已订阅的表运行查询。您可以从 “表和视图” 中选择表格,然后选择 “预览”,在编辑器屏幕上显示 select 语句。运行查询以查看结果。