AWS Data Pipeline 不再向新客户提供。的现有客户 AWS Data Pipeline 可以继续照常使用该服务。了解更多
本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
资源
在中 AWS Data Pipeline,资源是执行管道活动指定的工作的计算资源。 AWS Data Pipeline 支持以下类型的资源:
- Ec2Resource
-
执行由管道活动定义的工作的 EC2 实例。
- EmrCluster
-
执行管道活动所定义工作的 Amazon EMR 集群,例如 EmrActivity。
资源可以运行在与其工作数据集相同的区域中,即使该区域与 AWS Data Pipeline不同。有关更多信息,请参阅 利用多个区域中的资源使用管道。
资源限制
AWS Data Pipeline 可扩展以容纳大量并发任务,您可以将其配置为自动创建处理大型工作负载所需的资源。这些自动创建的资源由您控制,并计入您的 Amazon Web Services account 资源限制。例如,如果您配置 AWS Data Pipeline 为自动创建一个 20 个节点的 Amazon EMR 集群来处理数据,并且您的 AWS 账户的 EC2 实例限制设置为 20,则您可能会无意中耗尽可用的回填资源。因此,在设计中请考虑这些资源限制或相应增加您的账户限制。有关服务限制的更多信息,请参阅 AWS 一般参考中的 AWS 服务限制。
注意
每个 Ec2Resource
组件对象的限制是一个实例。
支持的平台
管道可以在以下平台中启动您的资源:
- EC2-经典
-
您的资源会在一个可与其他客户共享的扁平化网络中运行。
- EC2-VPC
-
您的资源会在一个逻辑上与 Amazon Web Services account 分离的 Virtual Private Cloud(VPC)中运行。
您的 AWS 账户可以按区域将资源启动到两个平台上,也可以仅在 EC2-VPC 中启动。有关更多信息,请参阅 Amazon EC2 用户指南中的支持的平台。
如果您的 AWS 账户仅支持 EC2-VPC,我们将在每个 AWS 区域为您创建一个默认 VPC。默认情况下,我们将在您的默认 VPC 的默认子网中启动资源。或者,在配置资源时,您可以创建一个非默认 VPC,并指定其中一个子网,然后在非默认 VPC 的指定子网中启动资源。
在 VPC 中启动实例时,您必须指定一个专门为该 VPC 创建的安全组。在 VPC 中启动实例时,您无法指定为 EC2-Classic 创建的安全组。此外,您必须使用安全组 ID 而非安全组名称来识别 VPC 的安全组。
带有亚马逊 EMR 集群的 Amazon EC2 Spot 实例和 AWS Data Pipeline
管道可以将 Amazon EC2 Spot 实例用于其 Amazon EMR 集群资源中的任务节点。默认情况下,管道使用按需实例。竞价型实例允许您使用备用 EC2 实例并运行它们。Spot 实例定价模型是对按需定价模型和预留实例定价模型的补充,为用户提供了对于应用需要的计算容量而言可能是最经济实惠的价格选项。有关更多信息,请参阅 Amazon EC2 竞价型实例
当您使用竞价型实例时, AWS Data Pipeline 请在集群启动时向 Amazon EMR 提交您的竞价型实例最高价格。它会自动将集群的工作分配给您使用该taskInstanceCount
字段定义的竞价型实例任务节点的数量。 AWS Data Pipeline 限制任务节点的竞价型实例,以确保按需核心节点可用于运行您的管道。
您可以编辑发生故障或已完成的管道资源实例,以添加 Spot 实例。管道重新启动集群时,会将 Spot 实例作为任务节点。
Spot 实例注意事项
当您将 Spot 实例与一起使用时 AWS Data Pipeline,需要考虑以下注意事项:
-
当竞价型实例价格高于您的实例的最高价格时,或者由于 Amazon EC2 容量原因时,您的竞价型实例可能会终止。但是,您不会丢失数据,因为使用的 AWS Data Pipeline 集群的核心节点始终是按需实例,并且不会被终止。
-
当 Spot 实例异步满足容量时,可能需要较长时间才能启动。因此,Spot 实例的管道比同等按需实例管道运行慢。
-
如果您未收到 Spot 实例 (例如当您的最高出价太低时),您的集群可能不运行。