资源 - AWS Data Pipeline

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

资源

在 AWS Data Pipeline 中,资源是执行管道活动所指定工作的计算资源。AWS Data Pipeline 支持以下类型的资源:

Ec2Resource

执行管道活动定义的工作的 EC2 实例。

EmrCluster

执行管道活动所定义工作的 Amazon EMR 集群,例如 EmrActivity

资源可以运行在与其工作数据集相同的区域中,即使该区域与 AWS Data Pipeline 不同。有关更多信息,请参阅利用多个区域中的资源使用管道

资源限制

AWS Data Pipeline 扩展以满足大量并发任务,您可以将其配置为自动创建所需的资源以处理大型工作负载。这些自动创建的资源由您控制,并计入您的 Amazon Web Services account 资源限制。例如,如果您配置 AWS Data Pipeline 自动创建 20 个节点的 Amazon EMR 集群以处理数据,并且您的 Amazon Web Services account 的 EC2 实例限制设置为 20,您可能会无意中用尽可用的回填资源。因此,在设计中请考虑这些资源限制或相应增加您的账户限制。有关服务限制的更多信息,请参阅 AWS 一般参考中的 AWS 服务限制

注意

每个 Ec2Resource 组件对象的限制是一个实例。

支持的平台

管道可以在以下平台中启动您的资源:

EC2-Classic

您的资源会在一个可与其他客户共享的扁平化网络中运行。

EC2-VPC

您的资源会在一个逻辑上与 Amazon Web Services account 分离的 Virtual Private Cloud (VPC) 中运行。

根据各地区的不同条件,您的 Amazon Web Services account 可以在两个平台或只能在 EC2-VPC 中启动资源。有关更多信息,请参阅适用于 Linux 实例的 Amazon EC2 用户指南中的支持的平台

如果您的 Amazon Web Services account 仅支持 EC2-VPC,我们会在各个 Amazon Web Services Region 中为您创建一个默认 VPC。默认情况下,我们将在您的默认 VPC 的默认子网中启动资源。或者,在配置资源时,您可以创建一个非默认 VPC,并指定其中一个子网,然后在非默认 VPC 的指定子网中启动资源。

在 VPC 中启动实例时,您必须指定一个专门为该 VPC 创建的安全组。在 VPC 中启动实例时,您无法指定为 EC2-Classic 创建的安全组。此外,您必须使用安全组 ID 而非安全组名称来识别 VPC 的安全组。

Amazon EC2 竞价型实例与 Amazon EMR 集群和 AWS Data Pipeline

管道可以将 Amazon EC2 竞价型实例用于其 Amazon EMR 集群资源中的任务节点。默认情况下,管道使用按需实例。Spot 实例允许您使用的备用 EC2 实例并运行它们。Spot 实例定价模型是对按需定价模型和预留实例定价模型的补充,为用户提供了对于应用需要的计算容量而言可能是最经济实惠的价格选项。有关更多信息,请参阅 Amazon EC2 Spot 实例产品页面。

当您使用竞价型实例时,AWS Data Pipeline 在您启动集群时将竞价型实例最高出价提交给 Amazon EMR。它会自动将集群的工作分配到您使用 taskInstanceCount 字段定义的数个 Spot 实例任务节点。AWS Data Pipeline 限制任务节点的 Spot 实例,以确保按需核心节点可用于运行您的管道。

您可以编辑发生故障或已完成的管道资源实例,以添加 Spot 实例。管道重新启动集群时,会将 Spot 实例作为任务节点。

Spot 实例注意事项

在您将 Spot 实例与 AWS Data Pipeline 结合使用时,应注意以下事项:

  • 您的竞价型实例可能因竞价型实例的价格超出您的最高出价或者 Amazon EC2 容量的原因而终止。但是,您不会丢失您的数据,因为 AWS Data Pipeline 所用集群的核心节点始终为按需实例,不受终止影响。

  • 当 Spot 实例异步满足容量时,可能需要较长时间才能启动。因此,Spot 实例的管道比同等按需实例管道运行慢。

  • 如果您未收到 Spot 实例 (例如当您的最高出价太低时),您的集群可能不运行。