AWS Data Pipeline tidak lagi tersedia untuk pelanggan baru. Pelanggan yang sudah ada AWS Data Pipeline dapat terus menggunakan layanan seperti biasa. Pelajari selengkapnya
Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pelari Tugas pada Sumber Daya yang AWS Data Pipeline Dikelola
Ketika sumber daya diluncurkan dan dikelola oleh AWS Data Pipeline, layanan web secara otomatis menginstal Task Runner pada sumber daya tersebut untuk memproses tugas dalam pipeline. Anda menentukan sumber daya komputasi (baik EC2 instance Amazon atau kluster EMR Amazon) untuk runsOn
bidang objek aktivitas. Saat AWS Data Pipeline
meluncurkan sumber daya ini, ia akan memasang Runner Tugas pada sumber daya tersebut dan mengonfigurasinya untuk memproses semua objek aktivitas yang bidang runsOn
-nya diatur ke sumber daya tersebut. Saat AWS Data Pipeline mengakhiri sumber daya, log Task Runner dipublikasikan ke lokasi Amazon S3 sebelum dimatikan.

Misalnya, jika Anda menggunakan EmrActivity
di alur, dan menentukan sumber daya EmrCluster
di bidang runsOn
. Saat AWS Data Pipeline memproses aktivitas tersebut, ia meluncurkan klaster EMR Amazon dan menginstal Task Runner ke node master. Runner Tugas ini kemudian memproses tugas untuk aktivitas yang bidang runsOn
-nya disetel ke objek EmrCluster
itu. Kutipan berikut dari definisi alur menunjukkan hubungan antara dua objek ini.
{ "id" : "MyEmrActivity", "name" : "Work to perform on my data", "type" : "EmrActivity", "runsOn" : {"ref" : "
MyEmrCluster
"}, "preStepCommand" : "scp remoteFiles localFiles", "step" : "s3://myBucket/myPath/myStep.jar,firstArg,secondArg", "step" : "s3://myBucket/myPath/myOtherStep.jar,anotherArg", "postStepCommand" : "scp localFiles remoteFiles", "input" : {"ref" : "MyS3Input"}, "output" : {"ref" : "MyS3Output"} }, { "id" : "MyEmrCluster
", "name" : "EMR cluster to perform the work", "type" : "EmrCluster", "hadoopVersion" : "0.20", "keypair" : "myKeyPair", "masterInstanceType" : "m1.xlarge", "coreInstanceType" : "m1.small", "coreInstanceCount" : "10", "taskInstanceType" : "m1.small", "taskInstanceCount": "10", "bootstrapAction" : "s3://elasticmapreduce/libs/ba/configure-hadoop,arg1,arg2,arg3", "bootstrapAction" : "s3://elasticmapreduce/libs/ba/configure-other-stuff,arg1,arg2" }
Untuk informasi dan contoh menjalankan aktivitas ini, lihat EmrActivity.
Jika Anda memiliki beberapa sumber daya yang AWS Data Pipeline dikelola dalam pipeline, Task Runner diinstal pada masing-masing sumber daya tersebut, dan mereka semua melakukan polling AWS Data Pipeline untuk tugas yang akan diproses.