Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Pemantauan kesehatan cluster sangat penting untuk memastikan kinerja yang optimal. AWS ParallelCluster memungkinkan Anda untuk memantau beberapa alarm CloudWatch berbasis untuk node kepala cluster.
Bagian ini memberikan detail untuk setiap jenis alarm klaster node Head termasuk konvensi penamaannya, kondisi spesifik yang memicu alarm, dan langkah-langkah pemecahan masalah yang disarankan.
Konvensi penamaan untuk alarm cluster adalahCLUSTER_NAME-COMPONENT-METRIC
, mis. mycluster-HeadNode-Cpu
-
CLUSTER_NAME-HeadNode
: menandakan status keseluruhan node kepala. Warna merah jika setidaknya salah satu alarm di bawah ini. -
CLUSTER_NAME-HeadNode-Health
: merah jika setidaknya ada satu kegagalan Pemeriksaan EC2 Kesehatan Amazon. Jika terjadi alarm, kami sarankan untuk melihat contoh Pemecahan masalah dengan pemeriksaan status yang gagal. -
CLUSTER_NAME-HeadNode-Cpu
: merah jika pemanfaatan CPU lebih besar dari 90%. Jika terjadi alarm, periksa proses yang paling banyak mengkonsumsi CPUps -aux --sort=-%cpu | head -n 10
. -
CLUSTER_NAME-HeadNode-Mem
: merah jika pemanfaatan memori lebih besar dari 90%. Jika terjadi alarm, periksa proses yang paling banyak menghabiskan memorips -aux --sort=-%mem | head -n 10
. -
CLUSTER_NAME-HeadNode-Disk
: merah jika ruang disk yang ditempati lebih besar dari 90% di jalur /. Dalam kasus alarm, periksa folder yang menghabiskan sebagian besar ruang dengandu -h --max-depth=2 / 2> /dev/null | sort -hr
.