Slurmmode terlindungi cluster - AWS ParallelCluster

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Slurmmode terlindungi cluster

Ketika sebuah cluster berjalan dengan mode dilindungi diaktifkan, AWS ParallelCluster memantau dan melacak kegagalan bootstrap node komputasi saat node komputasi sedang diluncurkan. Hal ini dilakukan untuk mendeteksi apakah kegagalan ini terjadi terus menerus.

Jika berikut ini terdeteksi dalam antrian (partisi), cluster memasuki status dilindungi:

  1. Kegagalan bootstrap node komputasi berturut-turut terjadi terus menerus tanpa peluncuran node komputasi yang berhasil.

  2. Jumlah kegagalan mencapai ambang batas yang telah ditentukan.

Setelah cluster memasuki status dilindungi, AWS ParallelCluster menonaktifkan antrian dengan kegagalan pada atau di atas ambang batas yang telah ditentukan.

Slurmmodus cluster dilindungi ditambahkan dalam AWS ParallelCluster versi 3.0.0.

Anda dapat menggunakan mode terlindungi untuk mengurangi waktu dan sumber daya yang dihabiskan untuk siklus kegagalan bootstrap node komputasi.

Parameter mode terlindungi

protected_failure_count

protected_failure_countmenentukan jumlah kegagalan berturut-turut dalam antrian (partisi) yang mengaktifkan status dilindungi cluster.

protected_failure_countDefaultnya adalah 10 dan mode terlindungi diaktifkan.

Jika protected_failure_count lebih besar dari nol, mode terlindungi diaktifkan.

Jika protected_failure_count kurang dari atau sama dengan nol, mode terlindungi dinonaktifkan.

Anda dapat mengubah protected_failure_count nilainya dengan menambahkan parameter di file clustermgtd konfigurasi yang terletak /etc/parallelcluster/slurm_plugin/parallelcluster_clustermgtd.conf di HeadNode file.

Anda dapat memperbarui parameter ini kapan saja dan Anda tidak perlu menghentikan armada komputasi untuk melakukannya. Jika peluncuran berhasil dalam antrian sebelum jumlah kegagalan mencapaiprotected_failure_count, hitungan kegagalan diatur ulang ke nol.

Periksa status klaster dalam status terlindungi

Saat klaster berada dalam status terlindungi, Anda dapat memeriksa status armada komputasi dan status node.

Hitung status armada

Status armada komputasi berada PROTECTED dalam cluster yang berjalan dalam status dilindungi.

$ pcluster describe-compute-fleet --cluster-name <cluster-name> --region <region-id> { "status": "PROTECTED", "lastStatusUpdatedTime": "2022-04-22T00:31:24.000Z" }

Status simpul

Untuk mempelajari antrian (partisi) mana yang memiliki kegagalan bootstrap yang telah mengaktifkan status terlindungi, masuk ke cluster dan jalankan perintah. sinfo Partisi dengan kegagalan bootstrap pada atau di atas protected_failure_count berada dalam INACTIVE keadaan. Partisi tanpa kegagalan bootstrap pada atau di atas protected_failure_count berada dalam UP keadaan dan berfungsi seperti yang diharapkan.

PROTECTEDstatus tidak berdampak pada menjalankan pekerjaan. Jika pekerjaan berjalan pada partisi dengan kegagalan bootstrap pada atau di atasprotected_failure_count, partisi diatur ke INACTIVE setelah pekerjaan yang berjalan selesai.

Pertimbangkan status simpul yang ditunjukkan pada contoh berikut.

$ sinfo PARTITION AVAIL TIMELIMIT NODES STATE NODELIST queue1* inact infinite 10 down% queue1-dy-c5xlarge-[1-10] queue1* inact infinite 3490 idle~ queue1-dy-c5xlarge-[11-3500] queue2 up infinite 10 idle~ queue2-dy-c5xlarge-[1-10]

Partisi queue1 adalah INACTIVE karena 10 kegagalan bootstrap node komputasi berturut-turut terdeteksi.

Instance di belakang node queue1-dy-c5xlarge-[1-10] diluncurkan tetapi gagal bergabung dengan cluster karena status yang tidak sehat.

Cluster dalam status dilindungi.

Partisi queue2 tidak terpengaruh oleh kegagalan bootstrap diqueue1. Itu di UP negara bagian dan masih bisa menjalankan pekerjaan.

Cara menonaktifkan status yang dilindungi

Setelah kesalahan bootstrap diselesaikan, Anda dapat menjalankan perintah berikut untuk mengeluarkan cluster dari status yang dilindungi.

$ pcluster update-compute-fleet --cluster-name <cluster-name> \ --region <region-id> \ --status START_REQUESTED

Kegagalan bootstrap yang mengaktifkan status dilindungi

Kesalahan bootstrap yang mengaktifkan status dilindungi dibagi lagi menjadi tiga jenis berikut. Untuk mengidentifikasi jenis dan masalah, Anda dapat memeriksa apakah log AWS ParallelCluster yang dihasilkan. Jika log dibuat, Anda dapat memeriksanya untuk detail kesalahan. Untuk informasi selengkapnya, lihat Mengambil dan melestarikan log.

  1. Kesalahan bootstrap yang menyebabkan instance berhenti sendiri.

    Sebuah instance gagal di awal proses bootstrap, seperti instance yang berhenti sendiri karena kesalahan dalam skrip SlurmQueues\ CustomActions\ OnNodeStart| OnNodeConfigured.

    Untuk node dinamis, cari kesalahan yang mirip dengan berikut ini:

    Node bootstrap error: Node ... is in power up state without valid backing instance

    Untuk node statis, lihat di clustermgtd log (/var/log/parallelcluster/clustermgtd) untuk kesalahan yang mirip dengan berikut ini:

    Node bootstrap error: Node ... is in power up state without valid backing instance
  2. Node resume_timeout atau node_replacement_timeout kedaluwarsa.

    Sebuah instance tidak dapat bergabung dengan cluster di dalam resume_timeout (untuk node dinamis) atau node_replacement_timeout (untuk node statis). Itu tidak berakhir sendiri sebelum batas waktu. Misalnya, jaringan tidak diatur dengan benar untuk cluster dan node disetel ke DOWN status Slurm setelah batas waktu berakhir.

    Untuk node dinamis, cari kesalahan yang mirip dengan berikut ini:

    Node bootstrap error: Resume timeout expires for node

    Untuk node statis, lihat di clustermgtd log (/var/log/parallelcluster/clustermgtd) untuk kesalahan yang mirip dengan berikut ini:

    Node bootstrap error: Replacement timeout expires for node ... in replacement.
  3. Node gagal memeriksa kesehatan.

    Instance di belakang node gagal pemeriksaan kesehatan Amazon EC2 atau pemeriksaan kesehatan acara terjadwal, dan node diperlakukan sebagai node kegagalan bootstrap. Dalam hal ini, instance berakhir karena alasan di luar kendali. AWS ParallelCluster

    Lihat di clustermgtd log (/var/log/parallelcluster/clustermgtd) untuk kesalahan yang mirip dengan berikut ini:

    Node bootstrap error: Node %s failed during bootstrap when performing health check.
  4. Node komputasi gagal Slurm registrasi.

    Pendaftaran slurmd daemon dengan daemon Slurm kontrol (slurmctld) gagal dan menyebabkan status node komputasi berubah ke status. INVALID_REG Node Slurm komputasi yang tidak dikonfigurasi dengan benar dapat menyebabkan kesalahan ini, seperti node terkomputasi yang dikonfigurasi dengan kesalahan spesifikasi node CustomSlurmSettingskomputasi.

    Lihat di file slurmctld log (/var/log/slurmctld.log) pada node kepala, atau lihat di file slurmd log (/var/log/slurmd.log) dari node komputasi gagal untuk kesalahan yang mirip dengan berikut ini:

    Setting node %s to INVAL with reason: ...

Cara men-debug mode yang dilindungi

Jika klaster Anda dalam status terlindungi, dan jika AWS ParallelCluster menghasilkan clustermgtd log dari HeadNode dan cloud-init-output log dari node komputasi yang bermasalah, maka Anda dapat memeriksa log untuk detail kesalahan. Untuk informasi selengkapnya tentang cara mengambil log, lihatMengambil dan melestarikan log.

clustermgtdlog (/var/log/parallelcluster/clustermgtd) pada simpul kepala

Pesan log menunjukkan partisi mana yang mengalami kegagalan bootstrap dan jumlah kegagalan bootstrap yang sesuai.

[slurm_plugin.clustermgtd:_handle_protected_mode_process] - INFO - Partitions bootstrap failure count: {'queue1': 2}, cluster will be set into protected mode if protected failure count reach threshold.

Di clustermgtd log, cari Found the following bootstrap failure nodes untuk menemukan node mana yang gagal di-bootstrap.

[slurm_plugin.clustermgtd:_handle_protected_mode_process] - WARNING - Found the following bootstrap failure nodes: (x2) ['queue1-st-c5large-1(192.168.110.155)', 'broken-st-c5large-2(192.168.65.215)']

Di clustermgtd log, cari Node bootstrap error untuk menemukan alasan kegagalan.

[slurm_plugin.clustermgtd:_is_node_bootstrap_failure] - WARNING - Node bootstrap error: Node broken-st-c5large-2(192.168.65.215) is currently in replacement and no backing instance

cloud-init-outputlog (/var/log/cloud-init-output.log) pada node komputasi

Setelah mendapatkan alamat IP pribadi node kegagalan bootstrap di clustermgtd log, Anda dapat menemukan log node komputasi yang sesuai dengan masuk ke node komputasi atau dengan mengikuti panduan Mengambil dan melestarikan log untuk mengambil log. Dalam kebanyakan kasus, /var/log/cloud-init-output log dari node bermasalah menunjukkan langkah yang menyebabkan kegagalan bootstrap node komputasi.