Slurm strategi alokasi node dinamis dalam versi 3.7.x - AWS ParallelCluster

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Slurm strategi alokasi node dinamis dalam versi 3.7.x

ParallelCluster menggunakan 2 jenis strategi alokasi node dinamis untuk menskalakan cluster:

  • Alokasi berdasarkan informasi node yang diminta yang tersedia:
    • Semua node melanjutkan atau penskalaan daftar simpul:

      ParallelCluster meningkatkan skala cluster hanya berdasarkan Slurmnama daftar simpul yang diminta saat SlurmResumeProgramberjalan. Ini mengalokasikan sumber daya komputasi ke node hanya dengan nama node. Daftar nama node dapat mencakup beberapa pekerjaan.

    • Resume tingkat pekerjaan atau penskalaan tingkat pekerjaan:

      ParallelCluster skala cluster berdasarkan persyaratan setiap pekerjaan, jumlah node saat ini yang dialokasikan untuk pekerjaan, dan node mana yang perlu dilanjutkan. ParallelCluster mendapatkan informasi ini dari variabel SLURM_RESUME_FILE lingkungan.

  • Alokasi dengan strategi EC2 peluncuran Amazon:
    • Penskalaan upaya terbaik:

      ParallelCluster meningkatkan skala cluster dengan menggunakan API panggilan instans EC2 peluncuran Amazon dengan kapasitas target minimum sama dengan 1, untuk meluncurkan beberapa, tetapi tidak harus semua instance diperlukan untuk mendukung node yang diminta.

    • ll-or-nothingPenskalaan:

      ParallelCluster meningkatkan skala cluster dengan menggunakan API panggilan instance EC2 peluncuran Amazon yang hanya berhasil jika semua instance yang diperlukan untuk mendukung node yang diminta diluncurkan. Dalam hal ini, ia memanggil instance EC2 peluncuran Amazon API dengan kapasitas target minimum sama dengan total kapasitas yang diminta.

Secara default, ParallelCluster menggunakan penskalaan daftar simpul dengan strategi EC2 peluncuran Amazon upaya terbaik untuk meluncurkan beberapa, tetapi tidak harus semua instance diperlukan untuk mendukung node yang diminta. Ia mencoba menyediakan kapasitas sebanyak mungkin untuk melayani beban kerja yang diajukan.

Dimulai dengan ParallelCluster versi 3.7.0, ParallelCluster menggunakan penskalaan tingkat pekerjaan dengan strategi all-or-nothingEC2peluncuran untuk pekerjaan yang dikirimkan dalam mode eksklusif. Saat Anda mengirimkan pekerjaan dalam mode eksklusif, pekerjaan tersebut memiliki akses eksklusif ke node yang dialokasikan. Untuk informasi lebih lanjut, lihat EXCLUSIVEdi Slurm dokumentasi.

Untuk mengirimkan pekerjaan dalam mode eksklusif:

  • Lewati bendera eksklusif saat mengirimkan Slurm pekerjaan ke cluster. Misalnya, sbatch ... --exclusive.

    ATAU

  • Kirim pekerjaan ke antrian cluster yang telah dikonfigurasi dengan JobExclusiveAllocationset ketrue.

Saat mengirimkan pekerjaan dalam mode eksklusif:

  • ParallelCluster saat ini batch meluncurkan permintaan untuk menyertakan hingga 500 node. Jika pekerjaan meminta lebih dari 500 node, ParallelCluster membuat permintaan all-or-nothingpeluncuran untuk setiap set 500 node dan permintaan peluncuran tambahan untuk sisa node.

  • Jika alokasi node dalam sumber daya komputasi tunggal, ParallelCluster buat permintaan all-or-nothingpeluncuran untuk setiap set 500 node dan permintaan peluncuran tambahan untuk sisa node. Jika permintaan peluncuran gagal, ParallelCluster menghentikan kapasitas yang tidak terpakai yang dibuat oleh semua permintaan peluncuran.

  • Jika alokasi node mencakup beberapa sumber daya komputasi, ParallelCluster perlu membuat permintaan all-or-nothingpeluncuran untuk setiap sumber daya komputasi. Permintaan ini juga dikelompokkan. Jika permintaan peluncuran gagal untuk salah satu sumber daya komputasi, ParallelCluster menghentikan kapasitas yang tidak terpakai yang dibuat oleh semua permintaan peluncuran sumber daya komputasi.

penskalaan tingkat pekerjaan dengan strategi all-or-nothingpeluncuran batasan yang diketahui:

  • Saat Anda mengirimkan pekerjaan dalam sumber daya komputasi dengan satu jenis instans, dalam antrian yang mencakup beberapa Availability Zone, API panggilan all-or-nothingEC2peluncuran hanya berhasil jika semua kapasitas dapat disediakan dalam satu Availability Zone.

  • Saat Anda mengirimkan pekerjaan di sumber daya komputasi dengan beberapa jenis instans, dalam antrian dengan satu Availability Zone, API panggilan EC2 peluncuran all-or-nothingAmazon hanya berhasil jika semua kapasitas dapat disediakan oleh satu jenis instans.

  • Saat Anda mengirimkan pekerjaan di sumber daya komputasi dengan beberapa jenis instans, dalam antrian yang mencakup beberapa Availability Zone, API panggilan EC2 peluncuran all-or-nothingAmazon tidak didukung dan ParallelCluster melakukan penskalaan upaya terbaik sebagai gantinya.