Tugas paralel multisimpul - AWS Batch

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Tugas paralel multisimpul

Anda dapat menggunakan multi-node parallel jobs untuk menjalankan pekerjaan tunggal yang mencakup beberapa EC2 instans Amazon. Dengan AWS Batch multi-node parallel jobs (juga dikenal sebagai penjadwalan geng), Anda dapat menjalankan aplikasi komputasi berkinerja tinggi skala besar dan pelatihan GPU model terdistribusi tanpa perlu meluncurkan, mengonfigurasi, dan mengelola sumber daya Amazon EC2 secara langsung. Pekerjaan paralel AWS Batch multi-node kompatibel dengan kerangka kerja apa pun yang mendukung komunikasi internode berbasis IP. Contohnya termasuk ApacheMXNet,, Caffe2 TensorFlow, atau Message Passing Interface (). MPI

Tugas paralel multisimpul dikirimkan sebagai tugas tunggal. Namun, ketentuan tugas Anda (atau timpaan simpul pengiriman tugas) menentukan jumlah simpul yang akan dibuat untuk tugas dan grup simpul apa yang akan dibuat. Setiap tugas paralel multisimpul berisi simpul utama, yang diluncurkan terlebih dahulu. Setelah simpul utama berjalan, simpul turunan diluncurkan dan dimulai. Pekerjaan selesai hanya jika node utama keluar. Semua node anak kemudian dihentikan. Untuk informasi selengkapnya, lihat Grup simpul.

Node pekerjaan paralel multi-node adalah penyewa tunggal. Ini berarti bahwa hanya satu wadah pekerjaan yang dijalankan di setiap EC2 instans Amazon.

Status tugas akhir (SUCCEEDED atau FAILED) ditentukan oleh status tugas akhir dari simpul utama. Untuk mendapatkan status pekerjaan paralel multi-node, jelaskan pekerjaan dengan menggunakan ID pekerjaan yang dikembalikan saat Anda mengirimkan pekerjaan. Jika Anda memerlukan detail untuk node anak, jelaskan setiap node anak satu per satu. Anda dapat mengatasi node menggunakan #N notasi (dimulai dengan 0). Misalnya, untuk mengakses detail simpul kedua suatu pekerjaan, jelaskan aws_batch_job_id#1 menggunakan AWS Batch DescribeJobsAPIoperasi. Informasi started, stoppedAt, statusReason, dan exit untuk tugas paralel multisimpul diisi dari simpul utama.

Jika Anda menentukan percobaan ulang pekerjaan, kegagalan node utama menyebabkan upaya lain terjadi. Kegagalan simpul anak tidak menyebabkan lebih banyak upaya terjadi. Setiap upaya baru dari tugas paralel multisimpul akan memperbarui upaya yang sesuai dari simpul turunan yang terkait.

Untuk menjalankan tugas paralel multi-node AWS Batch, kode aplikasi Anda harus berisi kerangka kerja dan pustaka yang diperlukan untuk komunikasi terdistribusi.