AWS Data Pipeline 不再提供給新客戶。的現有客戶 AWS Data Pipeline 可以繼續正常使用服務。進一步了解
本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
AWS Data Pipeline受管資源上的任務執行器
當資源由 啟動和管理時 AWS Data Pipeline,Web 服務會自動在該資源上安裝 Task Runner,以處理管道中的任務。您可以為活動物件runsOn的 欄位指定運算資源 (Amazon EC2 執行個體或 Amazon EMR 叢集)。當 AWS Data Pipeline 啟動此資源時,它會在該資源上安裝 Task Runner,並將其設定為處理其runsOn欄位設定為該資源的所有活動物件。當 AWS Data Pipeline 終止資源時,任務執行器日誌會在關閉之前發佈到 Amazon S3 位置。
例如,若您在管道中使用 EmrActivity,並在 runsOn 欄位中指定 EmrCluster 資源。當 AWS Data Pipeline 處理該活動時,它會啟動 Amazon EMR 叢集,並將 Task Runner 安裝到主節點。然後,此任務執行器會針對其runsOn欄位設定為該EmrCluster物件的活動處理任務。以下來自管道定義的摘要顯示兩個物件間的此關聯。
{ "id" : "MyEmrActivity", "name" : "Work to perform on my data", "type" : "EmrActivity", "runsOn" : {"ref" : "MyEmrCluster"}, "preStepCommand" : "scp remoteFiles localFiles", "step" : "s3://amzn-s3-demo-bucket/myPath/myStep.jar,firstArg,secondArg", "step" : "s3://amzn-s3-demo-bucket/myPath/myOtherStep.jar,anotherArg", "postStepCommand" : "scp localFiles remoteFiles", "input" : {"ref" : "MyS3Input"}, "output" : {"ref" : "MyS3Output"} }, { "id" : "MyEmrCluster", "name" : "EMR cluster to perform the work", "type" : "EmrCluster", "hadoopVersion" : "0.20", "keypair" : "myKeyPair", "masterInstanceType" : "m1.xlarge", "coreInstanceType" : "m1.small", "coreInstanceCount" : "10", "taskInstanceType" : "m1.small", "taskInstanceCount": "10", "bootstrapAction" : "s3://elasticmapreduce/libs/ba/configure-hadoop,arg1,arg2,arg3", "bootstrapAction" : "s3://elasticmapreduce/libs/ba/configure-other-stuff,arg1,arg2" }
如需執行此活動的資訊和範例,請參閱 EmrActivity。
如果您在管道中有多個 AWS Data Pipeline受管資源,任務執行器會安裝在每個資源上,而且它們都會輪詢要處理 AWS Data Pipeline 的任務。