Menjalankan Pekerjaan pada Sumber Daya yang Ada Menggunakan Runner Tugas - AWS Data Pipeline

AWS Data Pipeline tidak lagi tersedia untuk pelanggan baru. Pelanggan yang sudah ada dari AWS Data Pipeline dapat terus menggunakan layanan seperti biasa. Pelajari selengkapnya

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menjalankan Pekerjaan pada Sumber Daya yang Ada Menggunakan Runner Tugas

Anda dapat menginstal Task Runner pada sumber daya komputasi yang Anda kelola, seperti EC2 instans Amazon, atau server fisik atau workstation. Task Runner dapat diinstal di mana saja, pada perangkat keras atau sistem operasi yang kompatibel, asalkan dapat berkomunikasi dengan layanan AWS Data Pipeline web.

Pendekatan ini dapat berguna ketika, misalnya, Anda ingin menggunakan AWS Data Pipeline untuk memproses data yang disimpan di dalam firewall organisasi Anda. Dengan menginstal Task Runner di server di jaringan lokal, Anda dapat mengakses database lokal dengan aman dan kemudian melakukan polling AWS Data Pipeline untuk tugas berikutnya yang akan dijalankan. Saat AWS Data Pipeline selesai memproses atau menghapus pipeline, instance Task Runner tetap berjalan di sumber daya komputasi hingga Anda mematikannya secara manual. Log Runner Tugas tetap ada setelah eksekusi alur selesai.

Untuk menggunakan Runner Tugas pada sumber daya yang Anda kelola, Anda harus mengunduh Runner Tugas terlebih dahulu, lalu memasangnya pada sumber daya komputasi Anda, menggunakan prosedur di bagian ini.

catatan

Anda hanya dapat menginstal Task Runner di Linux,UNIX, atau macOS. Runner Tugas tidak didukung pada sistem operasi Windows.

Untuk menggunakan Task Runner 2.0, versi Java minimum yang dibutuhkan adalah 1.7.

Untuk menghubungkan Runner Tugas yang telah Anda pasang ke aktivitas alur yang harus diproses, tambahkan bidang workerGroup ke objek, dan konfigurasikan Runner Tugas untuk melakukan polling untuk nilai grup pekerja tersebut. Anda melakukan ini dengan meneruskan string grup pekerja sebagai parameter (misalnya,--workerGroup=wg-12345) ketika Anda menjalankan JAR file Task Runner.

AWS Data Pipeline diagram showing monthly task flow for archiving processed invoices using Task Runner.
{ "id" : "CreateDirectory", "type" : "ShellCommandActivity", "workerGroup" : "wg-12345", "command" : "mkdir new-directory" }

Pemasangan Runner Tugas

Bagian ini menjelaskan cara memasang dan mengonfigurasi Runner Tugas dan prasyaratnya. Pemasangan adalah proses manual yang mudah.

Untuk memasang Runner Tugas
  1. Runner Tugas memerlukan Java versi 1.6 atau 1.8. Untuk menentukan apakah Java telah terpasang, dan versi yang sedang berjalan, gunakan perintah berikut:

    java -version

    Jika Anda tidak memasang Java 1.6 atau 1.8 di komputer Anda, unduh salah satu versi ini dari http://www.Oracle.com/technetwork/java/index.html. Unduh dan pasang Java, lalu lanjutkan ke langkah berikutnya.

  2. Unduh TaskRunner-1.0.jar dari https://s3.amazonaws.com/datapipeline-us-east-1/us-east-1/software/latest/TaskRunner/TaskRunner-1.0.jar dan kemudian salin ke folder pada sumber daya komputasi target. Untuk EMR klaster Amazon yang menjalankan EmrActivity tugas, instal Task Runner pada node master cluster.

  3. Saat menggunakan Task Runner untuk terhubung ke layanan AWS Data Pipeline web untuk memproses perintah Anda, pengguna memerlukan akses terprogram ke peran yang memiliki izin untuk membuat atau mengelola pipeline data. Untuk informasi selengkapnya, lihat Memberikan akses terprogram.

  4. Task Runner terhubung ke layanan AWS Data Pipeline web menggunakanHTTPS. Jika Anda menggunakan AWS sumber daya, pastikan itu HTTPS diaktifkan di tabel routing dan ACL subnet yang sesuai. Jika Anda menggunakan firewall atau proxy, pastikan port 443 terbuka.

Memulai Runner Tugas

Di jendela prompt perintah baru yang diatur ke direktori tempat Anda memasang Runner Tugas, mulai Runner Tugas dengan perintah berikut.

java -jar TaskRunner-1.0.jar --config ~/credentials.json --workerGroup=myWorkerGroup --region=MyRegion --logUri=s3://mybucket/foldername

Opsi --config menunjuk ke file kredensial Anda.

Opsi --workerGroup menentukan nama grup pekerja Anda, yang harus memiliki nilai yang sama seperti yang ditentukan dalam alur Anda agar tugas dapat diproses.

Opsi --region menentukan wilayah layanan tempat menarik tugas untuk dieksekusi.

Opsi --logUri digunakan untuk mendorong log terkompresi Anda ke lokasi di Amazon S3.

Saat Runner Tugas aktif, ia mencetak jalur ke tempat berkas log ditulis di jendela terminal. Berikut adalah contohnya.

Logging to /Computer_Name/.../output/logs

Runner Tugas harus dijalankan terlepas dari shell login Anda. Jika Anda menggunakan aplikasi terminal untuk terhubung ke komputer Anda, Anda mungkin perlu menggunakan utilitas seperti nohup atau layar untuk mencegah aplikasi Runner Tugas keluar saat Anda log out. Untuk informasi selengkapnya tentang opsi baris perintah, lihat Opsi Konfigurasi Runner Tugas.

Memverifikasi Pencatatan Runner Tugas

Cara termudah untuk memverifikasi bahwa Runner Tugas berfungsi adalah dengan memeriksa apakah ia menulis berkas log. Runner Tugas menulis berkas log per jam ke direktori, output/logs, di bawah direktori tempat Runner Tugas dipasang. Nama file adalahTask Runner.log.YYYY-MM-DD-HH, di mana HH berjalan dari 00 hingga 23, diUDT. Untuk menghemat ruang penyimpanan, file log apa pun yang lebih tua dari delapan jam dikompresi. GZip