集群指标的 Amazon CloudWatch 警报 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

集群指标的 Amazon CloudWatch 警报

从 AWS ParallelCluster 版本 3.6 开始,您可以将集群配置为使用 Amazon CloudWatch 警报来监控头节点。一个警报监控根卷 disk_used_percent,另一个警报监控 mem_used_percent 指标。有关更多信息,请参阅《Amazon CloudWatch 用户指南》中的 CloudWatch 代理收集的指标

警报按以下方式命名:
  • cluster-name_DiskAlarm_HeadNode

  • cluster-name_MemAlarm_HeadNode

cluster-name 是集群的名称。

在导航窗格中选择警报,即可在 CloudWatch 控制台中访问警报。下图显示了集群的磁盘使用率警报和内存使用率警报。

A graph of the disk usage alarm status.

A graph of the memory usage alarm status.

当 1 个数据点的磁盘使用率百分比在 1 分钟时间段内超过 90% 时,磁盘使用率警报就会处于 ALARM 状态。

当 1 个数据点的内存使用率百分比在 1 分钟时间段内超过 90% 时,内存使用率警报就会处于 ALARM 状态。

注意

AWS ParallelCluster 默认情况下不配置警报操作。有关如何设置警报操作(例如发送通知)的信息,请参阅警报操作。有关 Amazon CloudWatch 警报的更多信息,请参阅 Amazon CloudWatch 用户指南 中的使用 Amazon CloudWatch 警报

如果您不想创建这些 Amazon CloudWatch 警报,请在集群配置中将 Monitoring/Dashboards/CloudWatch/Enabled 设置为 false,从而停用这些警报。这也将禁用 Amazon CloudWatch 控制面板的创建。有关更多信息,请参阅 亚马逊 CloudWatch 控制面板

注意

如果您停用 Amazon CloudWatch 控制面板的创建,则还会对集群停用 Amazon CloudWatch disk_used_percentmemory_used_percent 警报。