利用多个区域中的资源使用管道 - AWS Data Pipeline

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

利用多个区域中的资源使用管道

默认情况下,Ec2ResourceEmrCluster 资源在与 AWS Data Pipeline 相同的区域中运行,但是,AWS Data Pipeline 支持在多个区域中协调数据流的功能,例如在一个区域中运行的资源会整合来自另一个区域的输入数据。通过允许资源在指定区域中运行,您还具备了灵活性,可以将资源与其从属数据集放置在一起,通过减少延迟来最大化性能,同时避免跨区域的数据传输费用。您可以在 Ec2ResourceEmrCluster 上使用 region 字段,配置资源在不同于 AWS Data Pipeline 的区域中运行。

以下示例管道 JSON 文件显示了如何在欧洲地区(爱尔兰)运行 EmrCluster 资源,假定集群要处理的大量数据位于相同区域上。在本示例中,与典型管道的唯一的区别是 EmrClusterregion 字段值设置为 eu-west-1

{ "objects": [ { "id": "Hourly", "type": "Schedule", "startDateTime": "2014-11-19T07:48:00", "endDateTime": "2014-11-21T07:48:00", "period": "1 hours" }, { "id": "MyCluster", "type": "EmrCluster", "masterInstanceType": "m3.medium", "region": "eu-west-1", "schedule": { "ref": "Hourly" } }, { "id": "MyEmrActivity", "type": "EmrActivity", "schedule": { "ref": "Hourly" }, "runsOn": { "ref": "MyCluster" }, "step": "/home/hadoop/contrib/streaming/hadoop-streaming.jar,-input,s3n://elasticmapreduce/samples/wordcount/input,-output,s3://eu-west-1-bucket/wordcount/output/#{@scheduledStartTime},-mapper,s3n://elasticmapreduce/samples/wordcount/wordSplitter.py,-reducer,aggregate" } ] }

下表列出了您可以在 region 字段中选择的区域以及使用的关联区域代码:

注意

以下列表包含一些区域,AWS Data Pipeline 可以在其中协调工作流以及启动 Amazon EMR 或 Amazon EC2 资源。可能在这些区域中不支持 AWS Data Pipeline。有关支持 AWS Data Pipeline 的区域的信息,请参阅 Amazon Web Services Region 和终端节点

区域名称 区域代码
美国东部(弗吉尼亚州北部) us-east-1
US East (Ohio) us-east-2
美国西部(北加利福尼亚) us-west-1
US West (Oregon) us-west-2
Canada (Central) ca-central-1
Europe (Ireland) eu-west-1
欧洲(伦敦) eu-west-2
欧洲(法兰克福) eu-central-1
亚太地区(新加坡) ap-southeast-1
Asia Pacific (Sydney) ap-southeast-2
亚太地区(孟买) ap-south-1
亚太地区(东京) ap-northeast-1
亚太地区(首尔) ap-northeast-2
South America (São Paulo) sa-east-1