什么是 AWS Data Pipeline? - AWS Data Pipeline

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

什么是 AWS Data Pipeline?

注意

AWS Data Pipeline 服务处于维护模式,没有计划新功能或区域扩展。要了解更多信息并了解如何迁移现有工作负载,请参阅 从中迁移工作负载 AWS Data Pipeline

AWS Data Pipeline 是一项 Web 服务,可用于自动移动和转换数据。使用 AWS Data Pipeline,您可以定义数据驱动的工作流程,以便任务可以依赖于先前任务的成功完成。您可以定义数据转换的参数并 AWS Data Pipeline 强制执行已设置的逻辑。

以下组件协同 AWS Data Pipeline 工作以管理您的数据:

  • 管道定义 指定数据管理的业务逻辑。有关更多信息,请参阅 管道定义文件语法

  • 管道通过创建 Amazon EC2 实例以执行定义的工作活动,来计划和运行任务。您将管道定义上传到管道,然后激活管道。您可以编辑正在运行的管道的管道定义,并重新激活管道以使其生效。您可以停用管道,修改数据源,然后重新激活管道。完成使用管道后可以将其删除。

  • 任务运行程序将轮询任务,然后执行这些任务。例如,任务运行程序可以将日志文件复制到 Amazon S3 并启动 Amazon EMR 集群。任务运行程序已安装,并将在管道定义所创建的资源上自动运行。您可以编写自定义任务运行器应用程序,也可以使用提供的 Task Runner 应用程序 AWS Data Pipeline。有关更多信息,请参阅 任务运行程序

例如,您可以使用每天将网络服务器的日志存档 AWS Data Pipeline 到亚马逊简单存储服务 (Amazon S3),然后在这些日志上运行每周一次的亚马逊 EMR (Amazon EMR) 集群以生成流量报告。 AWS Data Pipeline 安排用于复制数据的每日任务和启动 Amazon EMR 集群的每周任务。 AWS Data Pipeline 还可确保 Amazon EMR 会等待最后一天的数据上传到 Amazon S3 后再开始分析,即使日志上传出现不可预见的延迟。

AWS Data Pipeline 功能概述

正在访问 AWS Data Pipeline

可以使用以下任意接口创建、访问和管理管道:

  • AWS Management Console 提供您可用来访问 AWS Data Pipeline的 Web 界面。

  • AWS Command Line Interface (AWS CLI) — 为各种 AWS 服务提供命令,包括 AWS Data Pipeline Windows、macOS 和 Linux,并支持这些服务。有关安装的更多信息 AWS CLI,请参阅AWS Command Line Interface。有关命令的列表 AWS Data Pipeline,请参阅数据管道。

  • AWS 开发工具包 — 提供特定于语言的 API,并关注许多连接详细信息,例如计算签名、处理请求重试和错误处理。有关更多信息,请参阅 AWS 软件开发工具包

  • 查询 API 提供了您使用 HTTPS 请求调用的低级别 API。使用查询 API 是用于访问 AWS Data Pipeline的最直接的方式,但需要您的应用程序处理低级别的详细信息,例如生成哈希值以签署请求以及进行错误处理。有关更多信息,请参阅 AWS Data Pipeline API 参考

定价

对于 Amazon Web Services,您只需按实际用量付费。对于 AWS Data Pipeline,您需要根据活动和先决条件的计划运行频率及其运行地点来支付管道费用。有关更多信息,请参阅AWS Data Pipeline 定价

如果您的 Amazon Web Services account 不到 12 个月,您就有资格使用免费套餐。免费套餐包括每月免费 3 个低频率先决条件和 5 个低频率活动。有关更多信息,请参阅 AWS Free Tier