配置联网 - Amazon EMR

配置联网

大多数集群都使用 Amazon Virtual Private Cloud(Amazon VPC)启动到虚拟网络。VPC 是AWS中在逻辑上与AWS账户隔离的独立虚拟网络。您可以对私有 IP 地址范围、子网、路由表和网络网关等进行配置。有关更多信息,请参阅《Amazon VPC 用户指南》

VPC 提供以下功能:

  • 处理敏感数据

    在 VPC 中启动集群类似于使用额外的工具(如路由表和网络 ACL)在私有网络中启动集群,以便定义可以访问网络的人员。如果您正在处理集群中的敏感数据,您可能希望获得在 VPC 中启动集群所提供的额外访问控制。此外,您还可以选择在私有子网中启动您的资源,其中,所有这些资源都没有直接的 Internet 连接。

  • 访问内部网络上的资源

    如果您的数据源位于私有网络中,可能无法或者不愿将这些数据上载到AWS,以便导入 Amazon EMR,这要么是因为要传输的数据量,要么是因为数据的敏感性质。相反,您可以在 VPC 中启动集群,并通过 VPN 连接将您的数据中心连接到 VPC,从而允许集群访问内部网络上的资源。例如,如果数据中心内有 Oracle 数据库,则在通过 VPN 连接到该网络的 VPC 中启动集群,可使集群能够访问 Oracle 数据库。

公有子网和私有子网

您可以同时在公有 VPC 子网和私有 VPC 子网中启动 Amazon EMR 集群。这意味着,您不需要互联网连接即可运行 Amazon EMR 集群;但是,您可能需要配置网络地址转换(NAT)和 VPN 网关来访问位于 VPC 外部的服务或资源,例如,在公司内部网或公有AWS服务终端节点(如 AWS Key Management Service)中。

重要

Amazon EMR 仅支持在版本 4.2 及更高版本中的私有子网中启动集群。

有关 Amazon VPC 的更多信息,请参阅 Amazon VPC 用户指南

用于了解 VPC 的更多资源

要了解有关 VPC 和子网的更多信息,请参阅以下主题。