叢集警示

叢集運作狀態監控對於確保最佳效能至關重要。 AWS ParallelCluster 可讓您監控叢集前端節點的多個 CloudWatch 型警示。

本節提供每種頭部節點叢集警示類型的詳細資訊，包括其命名慣例、觸發警示的特定條件，以及建議的疑難排解步驟。

叢集警示的命名慣例為 CLUSTER_NAME-COMPONENT-METRIC，例如。 mycluster-HeadNode-Cpu

CLUSTER_NAME-HeadNode：會發出頭部節點的整體狀態訊號。如果以下至少一個警示為，則為紅色。
CLUSTER_NAME-HeadNode-Health：如果至少有一個 Amazon EC2 運作狀態檢查失敗，則為紅色。如果發生警示，建議您查看故障診斷狀態檢查失敗的執行個體。
CLUSTER_NAME-HeadNode-Cpu：如果 CPU 使用率大於 90%，則為紅色。如果發生警示，請使用檢查消耗 CPU 最多的程序ps -aux --sort=-%cpu | head -n 10。
CLUSTER_NAME-HeadNode-Mem：如果記憶體使用率大於 90%，則為紅色。如果發生警示，請使用檢查最常耗用記憶體的程序ps -aux --sort=-%mem | head -n 10。
CLUSTER_NAME-HeadNode-Disk：如果路徑 / 上的佔用磁碟空間大於 90%，則為紅色。如果發生警示，請檢查使用佔用大部分空間的資料夾du -h --max-depth=2 / 2> /dev/null | sort -hr。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

使用自訂Slurm組態查看錯誤

AWS ParallelCluster 支援政策