管道定义 - AWS Data Pipeline

管道定义

管道定义是指您如何将业务逻辑传达给 AWS Data Pipeline。它包含以下信息:

  • 您数据源的名称、位置和格式

  • 转换数据的活动

  • 这些活动的计划

  • 运行您的活动和先决条件的资源

  • 必须满足先决条件,然后才能计划活动

  • 在管道执行继续时提醒您状态更新的方式

AWS Data Pipeline 根据您的管道定义确定任务、计划任务并将任务分配给任务运行程序。如果任务未成功完成,AWS Data Pipeline 会根据您的指令重试任务,如有必要,将任务重新分配给其他任务运行程序。如果任务反复失败,您可以配置管道通知您。

例如,您可以在管道定义中指定,您的应用程序在 2013 年的每个月生成的日志文件将存档于 Amazon S3 存储桶。然后 AWS Data Pipeline 将创建 12 个任务,每个任务复制一个月的数据,不论该月有 30、31、28 还是 29 天。

您可以通过下列方法之一来创建管道定义:

  • 使用 AWS Data Pipeline 控制台通过图形方式创建

  • 以文本方式,按命令行界面使用的格式编写 JSON 文件

  • 使用 AWS 开发工具包或 AWS Data Pipeline API 以编程方式调用 Web 服务

管道定义可以包含以下类型的组件。

管道组件
数据节点

任务的输入数据的位置,或者存储输出数据的位置。

活动

按计划执行的工作的定义,使用计算资源,通常有输入和输出数据节点。

先决条件

必须为 true 然后操作才能运行的条件语句。

资源

执行管道定义的工作的计算资源。

操作

在满足指定条件时触发的操作,如活动故障。

有关更多信息,请参阅管道定义文件语法