开始使用 AWS Data Pipeline - AWS Data Pipeline

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

开始使用 AWS Data Pipeline

AWS Data Pipeline 可帮助您排列、计划、运行和管理定期数据处理工作负载,可靠且经济实惠。此服务让您可以轻松地根据自己的业务逻辑,在本地和在云中使用结构化和非结构化数据设计提取-转换-加载 (ETL) 活动。

要使用 AWS Data Pipeline,您将创建一个为数据处理指定业务逻辑的管道定义。典型的管道定义由定义要执行工作的活动、定义输入和输出数据的位置和类型的数据节点组成。

在本教程中,您将运行 shell 命令脚本,统计 Apache Web 服务器日志中的 GET 请求数。此管道在 1 小时内每 15 分钟运行一次,并将每次迭代的输出写入 Amazon S3 中。

先决条件

在开始之前,请完成正在设置 AWS Data Pipeline中的任务。

管道对象

管道使用以下对象:

ShellCommandActivity

读取输入日志文件并统计错误数。

S3 DataNode (input)

包含输入日志文件的 S3 存储桶。

S3 DataNode (output)

用于输出的 S3 存储桶。

Ec2Resource

AWS Data Pipeline 执行活动使用的计算资源。

请注意,如果您有大量日志文件数据,则可以配置管道使用 EMR 集群来处理文件,而不是 EC2 实例。

计划

定义活动在 1 小时内每 15 分钟执行一次。

创建管道

开始使用 AWS Data Pipeline 最快捷的方式就是使用称为模板 的管道定义。

创建管道
  1. 打开 AWS Data Pipeline 控制台,网址为 https://console.aws.amazon.com/datapipeline/

  2. 从导航栏中选择区域。您可以选择向您提供的任何区域,无需理会您身处的位置。许多 AWS 资源特定于某个区域,但 AWS Data Pipeline 使您能够使用与管道位于不同区域中的资源。

  3. 您看到的第一个屏幕取决于您是否在当前区域创建了管道。

    1. 如果您尚未在此区域创建管道,则控制台会显示简介屏幕。选择 Get started now

    2. 如果您已经在此区域创建了管道,则控制台会显示一个页面,其中列出了您在该区域的管道。选择创建新管道

  4. 名称中,输入管道的名称。

  5. (可选)对于描述,输入管道的描述。

  6. 对于 Source,选择 Build using a template,然后选择以下模板:Getting Started using ShellCommandActivity

  7. 在您选择模板时打开的 Parameters 部分下,将 S3 input folderShell command to run 保留为其默认值。单击 S3 output folder 旁边的文件夹图标,选择您的存储桶或文件夹之一,然后单击 Select

  8. Schedule 下,保留默认值。当您激活管道时,管道开始运行,每 15 分钟运行一次,连续运行一小时。

    如果您愿意,您可以改为选择 Run once on pipeline activation

  9. 管道配置下,将日志记录保持为启用状态。选择日志的 S3 位置下的文件夹图标,选择您的一个存储桶或文件夹,然后选择选择

    如果您愿意,您也可以禁用日志记录。

  10. 安全/访问下,将 IAM 角色设置为默认

  11. 单击 Activate

    如果您愿意,您可以选择在 Architect 中编辑来修改此管道。例如,您可以添加先决条件。

监控正在运行的管道

在激活管道后,您将转至 Execution details 页面,可在其中监控管道的进度。

监控管道的进度
  1. 单击 Update 或按 F5 以更新显示的状态。

    提示

    如果未列出任何运行,请确保 Start (in UTC)End (in UTC) 包含管道的计划开始时间和结束时间,然后单击 Update

  2. 如果管道中的每个对象的状态均为 FINISHED,则表示管道已成功完成计划的任务。

  3. 如果您的管道未成功完成,请检查您的管道设置是否有问题。有关管道的实例运行失败或未完成的问题排查的更多信息,请参阅解决常见问题

查看输出

打开 Amazon S3 控制台并导航到您的存储桶。如果您在 1 小时中每 15 分钟运行一次管道,则会看到带有时间戳的子文件夹。每个子文件夹中包含一个名为 output.txt 的文件。由于我们每次在同一个输入文件上运行脚本,输出文件相同。

删除管道

要停止产生费用,请删除您的管道。删除管道会删除管道定义和所有关联对象。

删除管道
  1. 列出管道页面中选择管道。

  2. 单击操作,然后选择删除

  3. 当系统提示进行确认时,选择 Delete(删除)

如果您完成了本教程的输出,请从您的 Amazon S3 存储桶删除输出文件夹。