AWS Data Pipeline 不再向新客户提供。的现有客户 AWS Data Pipeline 可以继续照常使用该服务。了解更多
本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
开始使用 AWS Data Pipeline
AWS Data Pipeline 可帮助您排列、计划、运行和管理定期数据处理工作负载,可靠且经济实惠。此服务让您可以轻松地根据自己的业务逻辑,在本地和在云中使用结构化和非结构化数据设计提取-转换-加载 (ETL) 活动。
要使用 AWS Data Pipeline,您将创建一个为数据处理指定业务逻辑的管道定义。典型的管道定义由定义要执行工作的活动、定义输入和输出数据的位置和类型的数据节点组成。
在本教程中,您将运行 shell 命令脚本,统计 Apache Web 服务器日志中的 GET 请求数。此管道在 1 小时内每 15 分钟运行一次,并将每次迭代的输出写入 Amazon S3 中。
先决条件
在开始之前,请完成正在设置 AWS Data Pipeline中的任务。
管道对象
管道使用以下对象:
- ShellCommandActivity
-
读取输入日志文件并统计错误数。
- S3 DataNode (input)
-
包含输入日志文件的 S3 存储桶。
- S3 DataNode (output)
-
用于输出的 S3 存储桶。
- Ec2Resource
-
AWS Data Pipeline 执行活动使用的计算资源。
请注意,如果您有大量日志文件数据,则可以配置管道使用 EMR 集群来处理文件,而不是 EC2 实例。
- 计划
-
定义活动在 1 小时内每 15 分钟执行一次。
创建管道
开始使用 AWS Data Pipeline 最快捷的方式就是使用称为模板 的管道定义。
创建管道
-
打开 AWS Data Pipeline 控制台,网址为 https://console.aws.amazon.com/datapipeline/
。 -
从导航栏中选择区域。您可以选择向您提供的任何区域,无需理会您身处的位置。许多 AWS 资源特定于某个区域,但 AWS Data Pipeline 使您能够使用与管道位于不同区域中的资源。
-
您看到的第一个屏幕取决于您是否在当前区域创建了管道。
-
如果您尚未在此区域创建管道,则控制台会显示简介屏幕。选择 Get started now。
-
如果您已经在此区域创建了管道,则控制台会显示一个页面,其中列出了您在该区域的管道。选择创建新管道。
-
-
在名称中,输入管道的名称。
-
(可选)对于描述,输入管道的描述。
-
对于 Source,选择 Build using a template,然后选择以下模板:Getting Started using ShellCommandActivity。
-
在您选择模板时打开的 Parameters 部分下,将 S3 input folder 和 Shell command to run 保留为其默认值。单击 S3 output folder 旁边的文件夹图标,选择您的存储桶或文件夹之一,然后单击 Select。
-
在 Schedule 下,保留默认值。当您激活管道时,管道开始运行,每 15 分钟运行一次,连续运行一小时。
如果您愿意,您可以改为选择 Run once on pipeline activation。
-
在管道配置下,将日志记录保持为启用状态。选择日志的 S3 位置下的文件夹图标,选择您的一个存储桶或文件夹,然后选择选择。
如果您愿意,您也可以禁用日志记录。
-
在安全/访问下,将 IAM 角色设置为默认。
-
单击 Activate。
如果您愿意,您可以选择在 Architect 中编辑来修改此管道。例如,您可以添加先决条件。
监控正在运行的管道
在激活管道后,您将转至 Execution details 页面,可在其中监控管道的进度。
监控管道的进度
-
单击 Update 或按 F5 以更新显示的状态。
提示
如果未列出任何运行,请确保 Start (in UTC) 和 End (in UTC) 包含管道的计划开始时间和结束时间,然后单击 Update。
-
如果管道中的每个对象的状态均为
FINISHED
,则表示管道已成功完成计划的任务。 -
如果您的管道未成功完成,请检查您的管道设置是否有问题。有关管道的实例运行失败或未完成的问题排查的更多信息,请参阅解决常见问题。
查看输出
打开 Amazon S3 控制台并导航到您的存储桶。如果您在 1 小时中每 15 分钟运行一次管道,则会看到带有时间戳的子文件夹。每个子文件夹中包含一个名为 output.txt
的文件。由于我们每次在同一个输入文件上运行脚本,输出文件相同。
删除管道
要停止产生费用,请删除您的管道。删除管道会删除管道定义和所有关联对象。
删除管道
-
在列出管道页面中选择管道。
-
单击操作,然后选择删除。
-
当系统提示进行确认时,选择 Delete(删除)。
如果您完成了本教程的输出,请从您的 Amazon S3 存储桶删除输出文件夹。