为亚马逊 Redshift 创建并运行亚马逊 DataZone 数据源 - 亚马逊 DataZone

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

为亚马逊 Redshift 创建并运行亚马逊 DataZone 数据源

在亚马逊中 DataZone,您可以创建亚马逊 Redshift 数据源,以便从亚马逊 Redshift 数据仓库中导入数据库表和视图的技术元数据。要为亚马逊 Redshift 添加亚马逊 DataZone 数据源,源数据仓库必须已经存在于亚马逊 Redshift 中。

创建和运行 Amazon Redshift 数据源时,您可以将源亚马逊 Redshift 数据仓库中的资产添加到您的 DataZone 亚马逊项目的库存中。您可以按设定的计划或按需运行 Amazon Redshift 数据源,以创建或更新资产的技术元数据。在数据源运行期间,您可以选择将项目库存资产发布到 Amazon DataZone 目录,从而使所有域用户都能发现这些资产。您也可以在编辑库存资产的业务元数据后发布这些资产。域用户可以搜索和发现您发布的资产,并申请订阅这些资产。

添加 Amazon Redshift 数据源
  1. 导航至 Amazon DataZone 数据门户URL并使用单点登录 (SSO) 或您的 AWS 证书。如果您是亚马逊 DataZone 管理员,则可以通过 https://console.aws.amazon.com/datazone 导航到亚马逊 DataZone 控制台,然后使用该控制台登录 AWS 账户 创建域的位置,然后选择打开数据门户

  2. 从顶部导航窗格中选择 “选择项目”,然后选择要向其中添加数据源的项目。

  3. 导航到项目的 “数据” 选项卡。

  4. 从左侧导航窗格中选择数据源,然后选择创建数据源。

  5. 配置以下字段:

    • 名称-数据源名称。

    • 描述-数据源描述。

  6. 在 “数据源类型” 下,选择 Amazon Redshift

  7. “选择环境” 下,指定要在其中发布 Amazon Redshift 表的环境。

  8. 根据您选择的环境,亚马逊 DataZone 将自动直接从环境中应用Amazon Redshift凭证和其他参数,或者允许您选择自己的凭证和其他参数。

    • 如果您选择的环境仅允许通过环境的默认 Amazon Redshift 架构进行发布,那么亚马逊 DataZone 将自动应用亚马逊 Redshift 凭证和其他参数,包括亚马逊 Redshift 集群或工作组名称, AWS 密钥、数据库名称和架构名称。您无法编辑这些自动填充的参数。

    • 如果您选择的环境不允许发布任何数据,则将无法继续创建数据源。

    • 如果您选择的环境允许从任何架构发布数据,则可以选择使用该环境中的证书和其他 Amazon Redshift 参数,也可以输入自己的证书/参数。

  9. 如果您选择使用自己的凭据来创建数据源,请提供以下详细信息:

    • 在 “提供亚马逊 Redshift 凭证” 下,选择是使用预配置的 Amazon Redshift 集群还是亚马逊 Redshift 无服务器工作空间作为数据源。

    • 根据您在上述步骤中的选择,从下拉菜单中选择您的 Amazon Redshift 集群或工作空间,然后在中选择密钥 AWS 用于身份验证的 Secrets Manager。您可以选择现有密钥或创建新密钥。

    • 为了使现有密钥出现在下拉列表中,请确保您的密钥在 AWS Secrets Manager 包含以下标签(键/值):

      • AmazonDataZoneProject: <projectID>

      • AmazonDataZoneDomain: <domainID>

      如果您选择创建新密钥,则系统会自动使用上面提及的标签对密钥进行标记,无需执行任何额外步骤。有关更多信息,请参阅中存储数据库凭据 AWS Secrets Manager.

      亚马逊 Redshift 用户在 AWS 为创建数据源提供的密钥必须对要发布的表具有SELECT权限。如果您希望 Amazon DataZone 同时代表您管理订阅(访问),则数据库用户在 AWS secret 还必须具有以下权限:

      • CREATE DATASHARE

      • ALTER DATASHARE

      • DROP DATASHARE

  10. 在 “数据选择” 下,提供 Amazon Redshift 数据库、架构,然后输入您的表或视图选择标准。例如,如果您选择 Incl u de 并输入*corporate,则资产将包括所有以该词结尾的源表corporate

    您可以为单个数据库中的表添加多个包含规则。您也可以使用添加其他数据库按钮添加多个数据库

  11. 选择下一步

  12. 对于发布设置,选择是否可以在数据目录中立即发现资产。如果您只将它们添加到库存中,则可以稍后选择订阅条款并将其发布到业务数据目录中。

  13. 对于自动生成企业名称,请选择是否在从源头发布和更新资产时自动生成元数据。

  14. (可选)对于元数据表单,添加表单以定义在资产导入 Amazon 时收集和保存的元数据 DataZone。有关更多信息,请参阅 创建元数据表单

  15. 在 “运行” 首选项中,选择何时运行数据源。

    • 按计划运行-指定运行数据源的日期和时间。

    • 按需运行-您可以手动启动数据源运行。

  16. 选择下一步

  17. 查看您的数据源配置并选择创建

注意

创建 Amazon Redshift 数据源时,亚马逊会 DataZone 授予对用于创建数据源的环境的 “只读” 访问权限,以访问数据源中使用的 Amazon Redshift 架构中的所有表。您可以在环境详细信息页面的数据源下监控这些授权的状态。

使用不同于创建环境的 Amazon Redshift 集群或无服务器工作组时,必须确保满足以下条件 AWS 标签已添加到集群或工作组。要使环境用户能够在 Amazon Redshift 查询编辑器 V2 中查看授权的数据库,这是必要的:DataZoneDiscoverable_${domainId}: true

对于在 Amazon 当前版本之前创建的环境 DataZone,项目成员将无法在 Amazon Redshift 中查看已授权的表。