本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
叢集警示
叢集健康狀態監控對於確保最佳效能至關重要。 AWS ParallelCluster 可讓您監視叢集頭節點的多個 CloudWatch 警示。
本節提供每種類型的「頭節點叢集警示」的詳細資訊,包括其命名慣例、觸發警示的特定條件,以及建議的疑難排解步驟。
叢集警示的命名慣例為CLUSTER_NAME-COMPONENT-METRIC
,例如mycluster-HeadNode-Cpu
。
-
CLUSTER_NAME-HeadNode
: 信號頭節點的整體狀態。如果以下至少有一個警報是紅色的。 -
CLUSTER_NAME-HeadNode-Health
:如果至少有一個 Amazon EC2 運作 Health 檢查失敗,則為紅色。如果發生警報,我們建議您查看使用失敗狀態檢查進行故障排除的實例。 -
CLUSTER_NAME-HeadNode-Cpu
:如果 CPU 使用率大於 90%,則為紅色。如果發生警報,請檢查消耗最多 CPU 的進程ps -aux --sort=-%cpu | head -n 10
。 -
CLUSTER_NAME-HeadNode-Mem
:如果記憶體使用率大於 90%,則為紅色。在發生警報的情況下,請檢查消耗最多內存的進程ps -aux --sort=-%mem | head -n 10
。 -
CLUSTER_NAME-HeadNode-Disk
:如果路徑上的佔用磁盤空間大於 90%/,則為紅色。如果發生警報,請檢查佔用大部分空間的文件夾du -h --max-depth=2 / 2> /dev/null | sort -hr
。