创建 Amazon Redshift 源节点 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建 Amazon Redshift 源节点

所需权限

使用 Amazon Redshift 数据来源的 AWS Glue Studio 作业需要额外的权限。有关如何为 ETL 作业添加权限的更多信息,请参阅 Review IAM permissions needed for ETL jobs

要使用 Amazon Redshift 连接,需要以下权限。

  • redshift-data:ListSchemas

  • redshift-data:ListTables

  • redshift-data:DescribeTable

  • redshift-data:ExecuteStatement

  • redshift-data:DescribeStatement

  • redshift-data:GetStatementResult

添加 Amazon Redshift 数据来源

要添加数据来源 - Amazon Redshift 节点,请执行以下操作:
  1. 选择 Amazon Redshift 访问类型:

    • 直接数据连接(推荐)- 如果您想直接访问 Amazon Redshift 数据,请选择此选项。这是推荐的选项,也是默认选项。

    • Data Catalog tables - 如果您有要使用的 Data Catalog 表,请选择此选项。

  2. 如果您选择直接数据连接,请为 Amazon Redshift 数据来源选择连接。这假设该连接已经存在,并且您可以从现有连接中进行选择。如果需要创建连接,请选择创建 Redshift 连接。有关更多信息,请参阅 Overview of using connectors and connections

    选择连接后,您可以通过单击查看属性来查看连接属性。可以看到有关连接的信息,包括 URL、安全组、子网、可用区、描述以及创建时间(UTC)和上次更新时间(UTC)时间戳。

  3. 选择 Amazon Redshift 来源选项:

    • 选择单个表 - 该表包含您要从单个 Amazon Redshift 表中访问的数据。

    • 输入自定义查询 - 允许您根据自定义查询访问多个 Amazon Redshift 表中的数据集。

  4. 如果您选择了单个表,请选择 Amazon Redshift 架构。可供选择的可用架构列表由所选表决定。

    或者,选择输入自定义查询。选择此选项可访问多个 Amazon Redshift 表中的自定义数据集。选择此选项后,输入 Amazon Redshift 查询。

    连接到 Amazon Redshift 无服务器环境时,请向自定义查询添加以下权限:

    GRANT SELECT ON ALL TABLES IN <schema> TO PUBLIC

    您可以选择推断架构,根据您输入的查询来读取架构。您也可以选择打开 Redshift 查询编辑器来输入 Amazon Redshift 查询。有关更多信息,请参阅 Querying a database using the query editor

  5. 性能和安全中,选择 Amazon S3 暂存目录和 IAM 角色。

    • Amazon S3 暂存目录 — 选择用于临时暂存数据的 Amazon S3 位置。

    • IAM 角色 - 选择可以写入您选择的 Amazon S3 位置的 IAM 角色。

  6. 自定义 Redshift 参数 - 可选中,输入参数和值。