设置对数据存储的网络访问 - AWS Glue

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

设置对数据存储的网络访问

要运行提取、转换和加载 (ETL) 作业,AWS Glue 必须能够访问您的数据存储。如果不需要在您的 Virtual Private Cloud(VPC)子网中运行任务(例如,将数据从 Amazon S3 转换到 Amazon S3),则无需进行额外的配置。

如果需要在您的 VPC 子网中运行任务(例如,转换私有子网中的 JDBC 数据存储中的数据),AWS Glue 将设置弹性网络接口,使您的任务能够安全可靠地连接您 VPC 中的其他资源。每个弹性网络接口都会从您指定的子网中的 IP 地址范围内获得一个私有 IP 地址。不会获得公有 IP 地址。在 AWS Glue 连接中指定的安全组应用于每个弹性网络接口上。有关更多信息,请参阅 设置 Amazon VPC 以通过建立从 AWS Glue 到 Amazon RDS 数据存储的 JDBC 连接

必须能够从 VPC 子网使用作业访问的所有 JDBC 数据存储。要从您的 VPC 内访问 Amazon S3,需要一个 VPC 终端节点。如果您的任务既要访问 VPC 资源又要访问公有 Internet,VPC 内部必须具有网络地址转换(NAT)网关。

一个作业或开发终端节点一次只能访问一个 VPC (以及子网)。如果需要访问不同 VPC 中的数据存储,可以进行以下选择:

  • 使用 VPC 对等访问数据存储。有关 VPC 对等的更多信息,请参阅 VPC 对等基本知识

  • 使用 Amazon S3 存储桶作为中间存储位置。将工作拆分成两个任务,将任务 1 的 Amazon S3 输出作为任务 2 的输入。

有关如何使用 Amazon VPC 连接到 Amazon Redshift 数据存储的详细信息,请参阅 配置 Redshift 连接

有关如何使用 Amazon VPC 连接到 Amazon RDS 数据存储的详细信息,请参阅 设置 Amazon VPC 以通过建立从 AWS Glue 到 Amazon RDS 数据存储的 JDBC 连接

在 Amazon VPC 中设置必要规则后,您就可以在 AWS Glue 中创建一个连接以连接您的数据存储所需的属性。有关连接的更多信息,请参阅 连接到数据

注意

确保针对 AWS Glue 设置您的 DNS 环境。有关更多信息,请参阅 在 VPC 中设置 DNS