Pertimbangan untuk menjalankan beberapa langkah secara paralel - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Pertimbangan untuk menjalankan beberapa langkah secara paralel

  • Langkah-langkah yang berjalan secara paralel dapat diselesaikan dalam urutan apa pun, tetapi langkah-langkah tertunda dalam antrean akan bertransisi ke keadaan berjalan sesuai urutan dikirimkan.

  • Ketika Anda memilih tingkat konkurensi langkah untuk klaster Anda, Anda harus mempertimbangkan apakah jenis instance node utama memenuhi persyaratan memori beban kerja pengguna atau tidak. Proses eksekusi langkah utama berjalan pada node utama untuk setiap langkah. Menjalankan beberapa langkah secara paralel membutuhkan lebih banyak memori dan CPU pemanfaatan dari node utama daripada menjalankan satu langkah pada satu waktu.

  • Untuk mencapai penjadwalan yang kompleks dan manajemen sumber daya dari langkah-langkah bersamaan, Anda dapat menggunakan fitur YARN penjadwalan seperti atau. FairScheduler CapacityScheduler Misalnya, Anda dapat menggunakan FairScheduler dengan queueMaxAppsDefault diatur untuk mencegah lebih dari sejumlah pekerjaan berjalan pada satu waktu.

  • Tingkat konkurensi langkah tunduk pada konfigurasi pengelola sumber daya. Misalnya, jika YARN dikonfigurasi dengan hanya paralelisme5, maka Anda hanya dapat memiliki lima YARN aplikasi berjalan secara paralel bahkan jika StepConcurrencyLevel diatur ke. 10 Untuk informasi selengkapnya tentang mengonfigurasi pengelola sumber daya, lihat Mengonfigurasi aplikasi di Panduan EMR Rilis Amazon.

  • Anda tidak dapat menambahkan langkah dengan langkah ActionOnFailure selain CONTINUE sementara tingkat konkurensi langkah cluster lebih besar dari 1.

  • Jika tingkat konkurensi langkah klaster lebih besar dari satu, fitur langkah ActionOnFailure tidak akan teraktivasi.

  • Jika sebuah klaster memiliki tingkat konkurensi langkah 1 tetapi memiliki beberapa langkah berjalan, TERMINATE_CLUSTER ActionOnFailure dapat teraktivasi, tetapi CANCEL_AND_WAIT ActionOnFailure tidak. Kasus edge ini muncul ketika tingkat konkurensi langkah klaster lebih besar dari satu, tapi akan turun jika ada beberapa langkah berjalan.

  • Anda dapat menggunakan penskalaan EMR otomatis untuk meningkatkan dan menurunkan berdasarkan YARN sumber daya untuk mencegah pertentangan sumber daya. Untuk informasi selengkapnya, lihat Menggunakan penskalaan otomatis dengan kebijakan khusus untuk grup instans di Panduan EMR Manajemen Amazon.

  • Ketika Anda mengurangi tingkat langkah bersamaan, EMR memungkinkan setiap langkah berjalan untuk menyelesaikan sebelum mengurangi jumlah langkah. Jika sumber daya habis karena klaster menjalankan terlalu banyak langkah secara bersamaan, kami merekomendasikan untuk secara manual membatalkan langkah-langkah berjalan untuk mengosongkan sumber daya.