创建警报 - Amazon Managed Grafana

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

创建警报

本文档主题讨论了 Grafana 中的传统警报。未来版本的 Amazon Managed Grafana 将不支持此功能。您可以迁移到 Grafana 警报以使用最新的警报功能。有关更多信息,请参阅下列主题之一。

有关支持 Grafana 版本 10.x 的 Grafana 工作空间,请参阅。Grafana 版本 10 中的警报

有关支持 Grafana 9.x 版本的 Grafana 工作空间,请参阅。Grafana 版本 9 中的警报

有关支持 Grafana 8.x 版本的 Grafana 工作空间,请参阅。Grafana 警报

当您使用 Amazon Managed Grafana 提醒时,您可以将规则附加到控制面板中。当您保存控制面板时,Amazon Managed Grafana 会将警报规则提取到单独的警报规则存储中,并安排它们进行评估。

在图表面板的警报选项卡上,您可以配置评估警报规则的频率以及警报更改状态和启动通知所必须满足的条件。

当前,只有图表面板支持警报规则。

添加或编辑警报规则

  1. 导航到添加或编辑警报规则的面板,选择标题,然后选择编辑

  2. 报选项卡上,选择创建警报。如果此面板已存在警报,则可以编辑 “警报” 选项卡上的字段。

  3. 填写字段。有关更多信息,请参阅 警报规则字段

  4. 编写完规则后,选择右上角的 “存” 以保存警报规则和控制面板。

  5. (可选,但建议使用)要确保规则返回预期的结果,请选择测试规则

删除报警规则

要删除警报,请滚动到警报底部,然后选择删除

警报规则字段

本节介绍您为创建警报而填写的字段。

规则

  • 名称-输入描述性名称。该名称将显示在 “警报规则” 列表中。

  • 评估每个-指定调度程序评估警报规则的频率。这称为评估间隔

  • Fo r — 指定查询在触发警报通知之前必须超过配置的阈值多长时间。

警告

请勿在If no data or all values are null设置For为的情况下使用No Data。的触发No Data将立即触发,而不For考虑在内。如果警报从中转换,这也可能导致不发送 OK 通知No Data -> Pending -> OK

如果已配置For警报规则,但查询违反了配置的阈值,则它将首先从变OKPending。从OKPending,Amazon Managed Grafana 不发送任何通知。当警报规则的触发时间超过For持续时间时,它将更改为Alerting并发送警报通知。

通常,我们建议使用此设置,因为获得误报通常比等待几分钟才启动警报通知更糟糕。查看Alert listAlert list panels,您将能够看到处于待处理状态的警报。

Conditions

当前,唯一现有的条件类型是允许您指定查询字母、时间范围和聚合函数的Query条件。

查询条件示例

avg() OF query(A, 15m, now) IS BELOW 14
  • avg()控制如何将每个系列的值减少到可以与阈值进行比较的值。选择该函数将其更改为另一个聚合函数。

  • query(A, 15m, now)这封信定义了要从 “指标” 选项卡运行的查询。后两个参数定义了时间范围:15m, now表示 15 分钟前到现在。您还可以使用10m, now-2m来定义 10 分钟前到 2 分钟前的时间范围。如果您想忽略最后 2 分钟的数据,这很有用。

  • IS BELOW 14定义阈值的类型和阈值。您可以选择IS BELOW更改阈值的类型。

警报规则中使用的查询不能包含任何模板变量。目前,我们仅AND支持条件之间的 OR and 运算符,并且它们是串行运行的。例如,我们有三个条件按以下顺序排列:条件:A(计算结果为:TRUE)或条件:B(计算结果为:FALSE)和条件:C(计算结果为:TRUE),因此结果将计算为((真或假)和 TRUE)= TRUE)= TRUE。

多个系列

如果查询返回多个系列,则将评估每个系列的聚合函数和阈值检查。目前,Amazon Managed Grafana 不跟踪每个系列的警报规则状态。以下情景详细说明了其影响。

  • 带有返回两个系列的查询的警报条件:server1 和 serv er 2。

  • s erver1 系列会触发警报规则并切换到状态Alerting

  • 发送通知时会显示以下消息:负载达到峰值 (server1)

  • 在随后对同一警报规则的评估中,server2 系列还会导致警报规则触发。

  • 由于警报规则已处于状态,因此不会发送任何新通知Alerting

从前面的场景中可以看出,如果规则已经处于状态Alerting,那么当其他系列导致警报触发时,Grafana不会发送通知。

注意

您可以将提醒配置为针对触发的警报发送提醒。当警报继续触发时,这将发送其他通知。如果其他系列(例如上一个示例中的 server2)也导致警报规则触发,则它们将包含在提醒通知中。根据您使用的通知渠道,您可以利用此功能来识别导致警报触发的新系列或现有系列。

没有数据和错误处理

下表包含用于控制规则评估引擎如何处理不返回任何数据或仅返回空值的查询的条件。

无数据选项 描述
没有数据 将警报规则状态设置为NoData
提示 将警报规则状态设置为Alerting
保留上次状态 不管它是什么,都要保持当前的警报规则状态。
好的 支持,但通常没有用。

执行错误或超时

以下选项告诉 Amazon Managed Grafana 如何处理执行或超时错误。

错误或超时选项 描述
提示 将警报规则状态设置为Alerting
保留上次状态 不管它是什么,都要保持当前的警报规则状态。

如果您有一个不可靠的时间序列存储,其中查询有时会超时或随机失败,则可以将此选项设置Keep Last State为基本上忽略它们。

通知

警报选项卡上,您还可以指定警报规则通知和有关警报规则的详细消息。该消息可以包含任何内容:有关如何解决问题的信息、运行手册的链接等。

实际的通知是在多个警报之间配置和共享的。有关如何配置和设置通知的信息,请参阅警报通知

  • 发送至-如果您已设置警报通知渠道,请选择该渠道。

  • 消息-输入要在通知渠道上发送的短信。某些警报通知器支持将文本转换为 HTML 或其他丰富格式。

  • 标签-指定要包含在通知中的标签(键值)列表。只有一些通知程序支持它。

警报状态历史记录和注释

警报状态更改记录在亚马逊托管 Grafana 数据库的内部注释表中。状态变化在警报规则的图表面板中以注释的形式可视化。您也可以进入警报选项卡上的State history子菜单来查看和清除状态历史记录。