使用任务运行程序 - AWS Data Pipeline

AWS Data Pipeline 不再向新客户提供。的现有客户 AWS Data Pipeline 可以继续照常使用该服务。了解更多

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用任务运行程序

任务运行程序是一种任务代理应用程序,此应用程序将轮询 AWS Data Pipeline 以获取计划任务,并在 Amazon EMR EC2 实例、Amazon EMR 集群或其他计算资源上执行这些计划任务,还会在执行过程中报告状态。根据您的应用程序,您可以选择:

  • AWS Data Pipeline 允许为您安装和管理一个或多个任务运行程序。激活管道后,将自动创建活动 runsOn 字段引用的默认值Ec2InstanceEmrCluster对象。 AWS Data Pipeline 负责在 EC2 实例或 EMR 集群的主节点上安装 Task Runner。在这种模式下, AWS Data Pipeline 可以为您完成大部分实例或集群管理。

  • 在您管理的资源上运行管道的全部或部分内容。可能的资源包括长时间运行的 Amazon EC2 实例、Amazon EMR 集群或物理服务器。您可以在几乎任何位置安装任务运行程序(可以是任务运行程序或您设备的自定义任务代理),前提是它可与 AWS Data Pipeline Web 服务进行通信。在此模式中,您几乎可以完全控制要使用的资源及其管理方式,并且您必须手动安装和配置任务运行程序。为此,请使用此部分中的过程,如使用任务运行程序在现有资源上执行工作中所述。