使用任务运行程序 - AWS Data Pipeline

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用任务运行程序

Task Runner 是一个任务代理应用程序,它轮询 AWS Data Pipeline 计划任务并在 Amazon EC2 实例、Amazon EMR 集群或其他计算资源上执行这些任务,并在运行时报告状态。根据您的应用程序,您可以选择:

  • AWS Data Pipeline 允许为您安装和管理一个或多个 Task Runner 应用程序。激活管道后,将自动创建活动 runsOn 字段引用的默认值Ec2InstanceEmrCluster对象。 AWS Data Pipeline 负责在 EC2 实例或 EMR 集群的主节点上安装任务运行器。在这种模式下, AWS Data Pipeline 可以为您完成大部分实例或集群管理。

  • 在您管理的资源上运行管道的全部或部分内容。可能的资源包括长时间运行的 Amazon EC2 实例、Amazon EMR 集群或物理服务器。你几乎可以在任何地方安装任务运行器(可以是 Task Runner,也可以是你自己设计的自定义任务代理),前提是它可以与 AWS Data Pipeline Web 服务通信。在此模式中,您几乎可以完全控制要使用的资源及其管理方式,并且您必须手动安装和配置任务运行程序。为此,请使用此部分中的过程,如使用任务运行程序在现有资源上执行工作中所述。