AWS ParallelCluster proses - AWS ParallelCluster

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

AWS ParallelCluster proses

Bagian ini berlaku untuk cluster yang digunakan dengan. Slurm Saat digunakan dengan penjadwal ini, AWS ParallelCluster mengelola penyediaan dan penghapusan node komputasi dengan berinteraksi dengan penjadwal pekerjaan yang mendasarinya.

Untuk cluster HPC yang didasarkan pada AWS Batch, AWS ParallelCluster bergantung pada kemampuan yang disediakan oleh AWS Batch untuk manajemen node komputasi.

clustermgtd

Tugas-tugas berikut dilakukan oleh daemon manajemen cluster.

  • Pembersihan partisi tidak aktif

  • Pengelolaan Slurm reservasi dan node yang terkait dengan Blok Kapasitas (lihat bagian berikut)

  • Manajemen kapasitas statis: pastikan kapasitas statis selalu naik dan sehat

  • Sinkronkan penjadwal dengan Amazon EC2.

  • Pembersihan contoh yatim piatu

  • Mengembalikan status node penjadwal pada penghentian Amazon EC2 yang terjadi di luar alur kerja penangguhan

  • Manajemen instans Amazon EC2 yang tidak sehat (gagal pemeriksaan kesehatan Amazon EC2)

  • Manajemen acara pemeliharaan terjadwal

  • Manajemen node Scheduler yang tidak sehat (gagal pemeriksaan kesehatan Scheduler)

Manajemen Slurm reservasi dan node yang terkait dengan Blok Kapasitas

ParallelCluster mendukung Pemesanan Kapasitas Sesuai Permintaan (ODCR) dan Blok Kapasitas untuk Machine Learning (CB). Tidak seperti ODCR, CB dapat memiliki waktu mulai masa depan dan terikat waktu.

Clustermgtd mencari node yang tidak sehat dalam satu loop dan menghentikan instans Amazon EC2 yang sedang down, menggantinya dengan instance baru jika merupakan node statis.

ParallelCluster mengelola node statis yang terkait dengan Blok Kapasitas secara berbeda. AWS ParallelCluster membuat cluster bahkan jika CB belum aktif, dan instance diluncurkan secara otomatis setelah CB aktif.

SlurmNode yang sesuai dengan sumber daya komputasi yang terkait dengan CB yang belum aktif disimpan dalam pemeliharaan sampai waktu mulai CB tercapai. Slurmnode akan tetap dalam status reservasi/pemeliharaan yang terkait dengan pengguna Slurm admin, yang berarti mereka dapat menerima pekerjaan, tetapi pekerjaan akan tetap tertunda sampai Slurm reservasi dihapus.

Clustermgtd akan secara otomatis membuat/menghapus Slurm reservasi, menempatkan node CB terkait dalam pemeliharaan berdasarkan status CB. Ketika CB akan aktif, Slurm reservasi akan dihapus, node akan mulai dan akan tersedia untuk pekerjaan yang tertunda atau untuk pengiriman pekerjaan baru.

Ketika waktu akhir CB tercapai, node akan dipindahkan kembali ke status reservasi/pemeliharaan. Terserah pengguna untuk mengirimkan ulang/meminta ulang pekerjaan ke antrian/sumber daya komputasi baru saat CB tidak lagi aktif dan instance dihentikan.

clusterstatusmgtd

Daemon manajemen status cluster mengelola pembaruan status armada komputasi. Setiap menit ia mengambil status armada yang disimpan dalam tabel DynamoDB dan mengelola permintaan STOP/START apa pun.

computemgtd

Proses daemon (computemgtd) manajemen komputasi berjalan pada setiap node komputasi cluster. Setiap lima (5) menit, daemon manajemen komputasi menegaskan bahwa node kepala dapat dijangkau dan sehat. Jika lima (5) menit berlalu di mana simpul kepala tidak dapat dicapai atau tidak sehat, simpul komputasi dimatikan.