活动 - AWS Data Pipeline

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

活动

在中 AWS Data Pipeline,活动是一个工作流组件,用于定义要执行的工作。 AWS Data Pipeline 提供了多种预打包的活动,可适应常见场景,例如将数据从一个位置移动到另一个位置、运行 Hive 查询等。活动是可扩展的,因此您可以运行自己的自定义脚本以支持随意组合。

AWS Data Pipeline 支持以下类型的活动:

CopyActivity

将数据从一个位置复制到另一个位置。

EmrActivity

运行 Amazon EMR 集群。

HiveActivity

在 Amazon EMR 集群上运行 Hive 查询。

HiveCopyActivity

在 Amazon EMR 集群上运行 Hive 查询,支持高级数据筛选并支持 S3 DataNodeDynamoDB DataNode

PigActivity

在 Amazon EMR 集群上运行 Pig 脚本。

RedshiftCopyActivity

向 Amazon Redshift 表复制数据和从其中复制数据。

ShellCommandActivity

以活动的方式运行自定义 UNIX/Linux shell 命令。

SqlActivity

对数据库运行 SQL 查询。

一些活动提供特殊的暂存数据和数据库表支持。有关更多信息,请参阅 将数据和表与管道活动一起暂存