什么是 AWS Data Pipeline? - AWS Data Pipeline

什么是 AWS Data Pipeline?

注意

AWS Data Pipeline 服务处于维护模式,没有计划新功能或区域扩展。要了解更多信息并了解如何迁移现有工作负载,请参阅 从 AWS Data Pipeline 迁移工作负载

AWS Data Pipeline 是一项 Web 服务,您可用于自动处理数据的移动和转换。使用 AWS Data Pipeline,您可以定义数据驱动的工作流,这样任务就可以依赖于前面任务的成功执行。您可以定义数据转换的参数,AWS Data Pipeline 将实施您设置的逻辑。

AWS Data Pipeline 的以下组件协同工作来管理您的数据:

  • 管道定义 指定数据管理的业务逻辑。有关更多信息,请参阅管道定义文件语法

  • 管道通过创建 Amazon EC2 实例以执行定义的工作活动,来计划和运行任务。您将管道定义上传到管道,然后激活管道。您可以编辑正在运行的管道的管道定义,并重新激活管道以使其生效。您可以停用管道,修改数据源,然后重新激活管道。完成使用管道后可以将其删除。

  • 任务运行程序将轮询任务,然后执行这些任务。例如,任务运行程序可以将日志文件复制到 Amazon S3 并启动 Amazon EMR 集群。任务运行程序已安装,并将在管道定义所创建的资源上自动运行。您可以编写自定义任务运行程序应用程序,也可以使用 AWS Data Pipeline 提供的任务运行程序应用程序。有关更多信息,请参阅任务运行程序

例如,您每天可使用 AWS Data Pipeline 将 Web 服务器的日志存档到 Amazon Simple Storage Service (Amazon S3),然后每周对这些日志运行 Amazon EMR (Amazon EMR) 集群以生成流量报告。AWS Data Pipeline 计划每日任务来复制数据,并计划每周任务来启动 Amazon EMR 集群。AWS Data Pipeline 还确保 Amazon EMR 在等待最后一天的数据上传到 Amazon S3 后,再开始其分析,即使存在不可预知的日志上传延迟。


            AWS Data Pipeline 功能概述

访问 AWS Data Pipeline

可以使用以下任意接口创建、访问和管理管道:

  • AWS Management Console 提供您可用来访问 AWS Data Pipeline 的 Web 界面。

  • AWS Command Line Interface (AWS CLI)提供了适用于大量 Amazon Web Services(包括 AWS Data Pipeline)的命令,并在 Windows、macOS 和 Linux 上受支持。有关安装 AWS CLI 的更多信息,请参阅 AWS Command Line Interface。有关 AWS Data Pipeline 命令的列表,请参阅 datapipeline

  • AWS 开发工具包 — 提供特定于语言的 API,并关注许多连接详细信息,例如计算签名、处理请求重试和错误处理。有关更多信息,请参阅 AWS 软件开发工具包

  • 查询 API 提供了您使用 HTTPS 请求调用的低级别 API。使用查询 API 是用于访问 AWS Data Pipeline 的最直接的方式,但需要您的应用程序处理低级别的详细信息,例如生成哈希值以签署请求以及进行错误处理。有关详细信息,请参阅 AWS Data Pipeline API 参考

定价

对于 Amazon Web Services,您只需按实际用量付费。对于 AWS Data Pipeline,您按照活动频率、计划运行的先决条件和位置为管道付费。有关更多信息,请参阅 AWS Data Pipeline 定价

如果您的 Amazon Web Services account 不到 12 个月,您就有资格使用免费套餐。免费套餐包括每月免费 3 个低频率先决条件和 5 个低频率活动。有关更多信息,请参阅 AWS 免费套餐