使用任务运行程序 - AWS Data Pipeline

使用任务运行程序

任务运行程序是一种任务代理应用程序,此应用程序将轮询 AWS Data Pipeline 以获取计划任务,并在 Amazon EC2 实例、Amazon EMR 集群或其他计算资源上执行这些计划任务,还会在执行过程中报告状态。根据您的应用程序,您可以选择:

  • 允许 AWS Data Pipeline 为您安装和管理一个或多个任务运行程序。在激活管道后,将自动创建由活动 runsOn 字段引用的默认 Ec2InstanceEmrCluster 对象。AWS Data Pipeline 负责在 EC2 实例上或 EMR 集群的主节点上安装任务运行程序。在此模式中,AWS Data Pipeline 可为您执行大多数实例或集群管理工作。

  • 在您管理的资源上运行管道的全部或部分内容。可能的资源包括长时间运行的 Amazon EC2 实例、Amazon EMR 集群或物理服务器。您可以在几乎任何位置安装任务运行程序(可以是任务运行程序或您设备的自定义任务代理),前提是它可与 AWS Data Pipeline Web 服务进行通信。在此模式中,您几乎可以完全控制要使用的资源及其管理方式,并且您必须手动安装和配置任务运行程序。为此,请使用此部分中的过程,如使用任务运行程序在现有资源上执行工作中所述。