clustermgtd clusterstatusmgtd computemgtd

AWS ParallelCluster proses

Bagian ini berlaku untuk cluster yang digunakan dengan Slurm. Saat digunakan dengan penjadwal ini, AWS ParallelCluster berinteraksi dengan penjadwal pekerjaan yang mendasarinya untuk mengelola penyediaan dan penghapusan node komputasi.

Untuk cluster HPC yang didasarkan pada AWS Batch, AWS ParallelCluster bergantung pada kemampuan yang disediakan oleh AWS Batch untuk mengelola node komputasi.

`clustermgtd`

Daemon manajemen klaster (clustermgtd) melakukan tugas-tugas ini:

Bersihkan partisi yang tidak aktif
Kelola Slurm reservasi dan node yang terkait dengan Blok Kapasitas (lihat bagian berikut)
Kelola kapasitas statis untuk memastikannya selalu aktif dan sehat
Sinkronkan penjadwal dengan Amazon EC2.
Bersihkan contoh yatim piatu
Memulihkan status node penjadwal setelah EC2 penghentian Amazon yang terjadi di luar alur kerja penangguhan
Kelola EC2 instans Amazon yang tidak sehat (yang gagal dalam pemeriksaan EC2 kesehatan Amazon)
Kelola acara pemeliharaan terjadwal
Kelola node penjadwal yang tidak sehat (yang gagal dalam pemeriksaan kesehatan penjadwal)

Pengelolaan Slurm reservasi dan node yang terkait dengan Blok Kapasitas

ParallelCluster mendukung Pemesanan Kapasitas Sesuai Permintaan (ODCR) dan Blok Kapasitas untuk Machine Learning (CB). Tidak seperti ODCR, CB dapat memiliki waktu mulai masa depan dan terikat waktu.

clustermgtdmencari node yang tidak sehat dalam satu lingkaran, menghentikan EC2 instans Amazon yang sedang down, dan menggantinya dengan instance baru jika node statis.

AWS ParallelCluster mengelola node statis yang terkait dengan Blok Kapasitas secara berbeda— itu membuat cluster bahkan jika CB belum aktif, dan secara otomatis meluncurkan instance setelah CB aktif.

Bagian Slurm node yang sesuai dengan sumber daya komputasi CBs yang terkait dengan yang belum aktif disimpan dalam status pemeliharaan sampai waktu mulai CB tercapai. Ini Slurm node tetap dalam status reservasi/pemeliharaan yang terkait dengan Slurm pengguna admin, yang berarti mereka dapat menerima pekerjaan, tetapi pekerjaan tetap tertunda sampai Slurm reservasi dihapus.

clustermgtdsecara otomatis membuat atau menghapus Slurm reservasi— itu menempatkan node CB terkait dalam keadaan pemeliharaan berdasarkan status CB. Ketika CB menjadi aktif, Slurm reservasi dihapus, node mulai dan menjadi tersedia untuk pekerjaan yang tertunda atau untuk pengiriman pekerjaan baru.

Ketika waktu akhir CB tercapai, node dipindahkan kembali ke reservation/maintenance state. It's up to users to resubmit/requeue the jobs to a new queue/compute sumber daya ketika CB tidak lagi aktif dan instance dihentikan.

`clusterstatusmgtd`

Daemon manajemen status klaster (clusterstatusmgtd) mengelola pembaruan status armada komputasi. Setiap menit ia mengambil status armada yang disimpan dalam tabel DynamoDB dan mengelola permintaan STOP/START apa pun.

`computemgtd`

Proses daemon (computemgtd) manajemen komputasi berjalan pada masing-masing node komputasi cluster. Setiap lima (5) menit, daemon manajemen komputasi menegaskan bahwa node kepala dapat dijangkau dan sehat. Jika lima (5) menit berlalu di mana simpul kepala tidak dapat dicapai atau tidak sehat, simpul komputasi dimatikan.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Bagaimana cara AWS ParallelCluster kerja

AWS Layanan yang digunakan oleh AWS ParallelCluster