Runner Tugas di Sumber Daya Terkelola AWS Data Pipeline - AWS Data Pipeline

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Runner Tugas di Sumber Daya Terkelola AWS Data Pipeline

Saat sumber daya diluncurkan dan dikelola oleh AWS Data Pipeline, layanan web secara otomatis memasang Runner Tugas pada sumber daya tersebut untuk memproses tugas dalam alur. Anda menentukan sumber daya komputasi (baik instans Amazon EC2 atau klaster Amazon EMR) untuk bidang runsOn dari objek aktivitas. Saat AWS Data Pipeline meluncurkan sumber daya ini, ia akan memasang Runner Tugas pada sumber daya tersebut dan mengonfigurasinya untuk memproses semua objek aktivitas yang bidang runsOn-nya diatur ke sumber daya tersebut. Saat AWS Data Pipeline mengakhiri sumber daya, log Runner Tugas dipublikasikan ke lokasi Amazon S3 sebelum dimatikan.

Siklus hidup runner tugas pada sumber daya yang dikelola AWS Data Pipeline

Misalnya, jika Anda menggunakan EmrActivity di alur, dan menentukan sumber daya EmrCluster di bidang runsOn. Saat AWS Data Pipeline memproses aktivitas itu, ia meluncurkan klaster Amazon EMR dan memasang Runner Tugas ke simpul utama. Runner Tugas ini kemudian memproses tugas untuk aktivitas yang bidang runsOn-nya disetel ke objek EmrCluster itu. Kutipan berikut dari definisi alur menunjukkan hubungan antara dua objek ini.

{ "id" : "MyEmrActivity", "name" : "Work to perform on my data", "type" : "EmrActivity", "runsOn" : {"ref" : "MyEmrCluster"}, "preStepCommand" : "scp remoteFiles localFiles", "step" : "s3://myBucket/myPath/myStep.jar,firstArg,secondArg", "step" : "s3://myBucket/myPath/myOtherStep.jar,anotherArg", "postStepCommand" : "scp localFiles remoteFiles", "input" : {"ref" : "MyS3Input"}, "output" : {"ref" : "MyS3Output"} }, { "id" : "MyEmrCluster", "name" : "EMR cluster to perform the work", "type" : "EmrCluster", "hadoopVersion" : "0.20", "keypair" : "myKeyPair", "masterInstanceType" : "m1.xlarge", "coreInstanceType" : "m1.small", "coreInstanceCount" : "10", "taskInstanceType" : "m1.small", "taskInstanceCount": "10", "bootstrapAction" : "s3://elasticmapreduce/libs/ba/configure-hadoop,arg1,arg2,arg3", "bootstrapAction" : "s3://elasticmapreduce/libs/ba/configure-other-stuff,arg1,arg2" }

Untuk informasi dan contoh menjalankan aktivitas ini, lihat EmrActivity.

Jika Anda memiliki beberapa sumber daya yang dikelola AWS Data Pipeline dalam alur, Runner Tugas dipasang pada masing-masing sumber daya tersebut, dan semuanya melakukan polling AWS Data Pipeline untuk tugas yang harus diproses.