Alarm cluster

Pemantauan kesehatan cluster sangat penting untuk memastikan kinerja yang optimal. AWS ParallelCluster memungkinkan Anda untuk memantau beberapa alarm CloudWatch berbasis untuk node kepala cluster.

Bagian ini memberikan detail untuk setiap jenis alarm klaster node Head termasuk konvensi penamaannya, kondisi spesifik yang memicu alarm, dan langkah-langkah pemecahan masalah yang disarankan.

Konvensi penamaan untuk alarm cluster adalahCLUSTER_NAME-COMPONENT-METRIC, mis. mycluster-HeadNode-Cpu

CLUSTER_NAME-HeadNode: menandakan status keseluruhan node kepala. Warna merah jika setidaknya salah satu alarm di bawah ini.
CLUSTER_NAME-HeadNode-Health: merah jika setidaknya ada satu kegagalan Pemeriksaan EC2 Kesehatan Amazon. Jika terjadi alarm, kami sarankan untuk melihat contoh Pemecahan masalah dengan pemeriksaan status yang gagal.
CLUSTER_NAME-HeadNode-Cpu: merah jika pemanfaatan CPU lebih besar dari 90%. Jika terjadi alarm, periksa proses yang paling banyak mengkonsumsi CPUps -aux --sort=-%cpu | head -n 10.
CLUSTER_NAME-HeadNode-Mem: merah jika pemanfaatan memori lebih besar dari 90%. Jika terjadi alarm, periksa proses yang paling banyak menghabiskan memorips -aux --sort=-%mem | head -n 10.
CLUSTER_NAME-HeadNode-Disk: merah jika ruang disk yang ditempati lebih besar dari 90% di jalur /. Dalam kasus alarm, periksa folder yang menghabiskan sebagian besar ruang dengandu -h --max-depth=2 / 2> /dev/null | sort -hr.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Melihat kesalahan dengan Slurm konfigurasi khusus

AWS ParallelCluster kebijakan dukungan