使用警报管理器在适用于 Prometheus 的亚马逊托管服务中管理和转发警报 - Amazon Managed Service for Prometheus

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用警报管理器在适用于 Prometheus 的亚马逊托管服务中管理和转发警报

当 Amazon Managed Service for Prometheus 运行的警报规则触发时,警报管理器会处理发送的警报。警报管理器会对警报进行重复数据删除、分组并路由到下游接收方。Amazon Managed Service for Prometheus 仅支持 Amazon Simple Notification Service 作为接收方,并且可以在同一个账户中将消息路由到 Amazon SNS 主题。您还可以使用警报管理器来静默和抑制警报。

警报管理器提供的功能与 Prometheus 中的 Alertmanager 类似。

您可以使用警报管理器的配置文件进行以下操作:

  • 分组 - 分组操作会将类似的警报收集到单个通知中。当许多系统同时出现故障并且可能同时触发数百个警报时,这在较大的停机故障中特别有用。例如,假设网络故障导致多个节点同时出现故障。如果将这些类型的警报分组,警报管理器会向您发送一条通知。

    警报分组和分组通知的时间由警报管理器配置文件中的路由树配置。有关更多信息,请参阅 <route>

  • 抑制 - 如果某些其它警报已经触发,则抑制功能会抑制某些警报的通知。例如,如果针对集群无法访问触发警报,则可以将警报管理器配置为将与该集群有关的所有其它警报静音。这样可以防止收到与实际问题无关的成百甚至数千个触发警报的通知。有关如何编写抑制规则的更多信息,请参阅 <inhibit_rule>

  • 静默 – 在指定时间(例如维护时段)内将静音警报设置为静默。检查传入的警报是否与活动静默的所有等式匹配器或正则表达式匹配器匹配。如果匹配,则不会针对该警报发送任何通知。

    要创建静默,请使用 PutAlertManagerSilences API。有关更多信息,请参阅 PutAlertManagerSilences

Prometheus 模板

独立版 Prometheus 支持使用单独的模板文件进行模板化。模板可以使用条件语句和格式化数据等。

在适用于 Prometheus 的亚马逊托管服务中,您可以将模板放在与警报管理器配置相同的警报管理器配置文件中。