亞馬遜CloudWatch儀表 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

亞馬遜CloudWatch儀表

建立叢集時會建立 Amazon CloudWatch 儀表板。這可讓您更輕鬆地監控叢集中的節點,以及檢視存放在 Amazon Logs 中的CloudWatch日誌。儀表板的名稱ClusterName-RegionClusterName是叢集的名稱,而區域是叢集AWS 區域所在。您可以在主控台中存取儀表板,或透過開啟https://console.aws.amazon.com/cloudwatch/home?region=Region#dashboards:name=ClusterName-Region

下圖顯示叢集的範例CloudWatch儀表板。

Dashboard graphs of the status of cluster resources.

頭節點執行處理測量

儀表板的第一個部分顯示頭節點 EC2 指標的圖形。

如果您的叢集具有共用儲存裝置,下一節會顯示共用儲存體指標。

叢集 Health 指

如果您的叢集用Slurm於排程,叢集健康狀況指標圖表會顯示即時叢集運算節點錯誤。如需詳細資訊,請參閱對集集集集集集集集。叢集健康狀態指標會從 3.6.0 AWS ParallelCluster 版開始新增至儀表板。

標頭節點記錄

最後一節列出了按日誌,排程器AWS ParallelCluster的日誌,NICE DCV 集成日誌和系統日誌分組的頭節點日誌。

如需 Amazon CloudWatch 儀表板的詳細資訊,請參閱 Amazon 使用CloudWatch者指南中的使用 Amazon CloudWatch 儀表板

如果您不想創建 Amazon CloudWatch 儀表板,則可以通過將 Monitoring//DashboardsCloudWatch/設置Enabled為將其關閉false

注意

如果停用 Amazon CloudWatch 儀表板的建立,也會停用叢集的 Amazon CloudWatch disk_used_percentmemory_used_percent警示。如需詳細資訊,請參閱針對叢集指標的 Amazon CloudWatch 警示

disk_used_percentmemory_used_percent鬧鐘會從 3.6 AWS ParallelCluster 版開始新增。