探索警报 - Amazon Managed Grafana

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

探索警报

本文档主题专为支持 Grafana 9.x 版本的 Grafana 工作空间而设计。

有关支持 Grafana 版本 10.x 的 Grafana 工作空间,请参阅。在 Grafana 版本 10 中工作

有关支持 Grafana 8.x 版本的 Grafana 工作空间,请参阅。在 Grafana 版本 8 中工作

无论您是开始还是扩展 Grafana Alerting 的实施,都要详细了解关键概念和可用功能,这些概念和功能可帮助您创建、管理和处理警报,并提高团队快速解决问题的能力。

首先,让我们来看看 Grafana Alerting 提供的不同警报规则类型。

警报规则类型

Grafana 管理的规则

Grafana 管理的规则是最灵活的警报规则类型。它们允许您创建警报,这些警报可以对来自我们支持的任何数据源的数据采取行动。除了支持多个数据源外,您还可以添加表达式来转换数据和设置警报条件。这是唯一一种允许在单个规则定义中从多个数据源发出警报的规则类型。

Mimir 和 Loki 的规则

要创建 Mimir 或 Loki 警报,你必须有兼容的 Prometheus 或 Loki 数据源。您可以通过测试数据源并观察是否支持标尺 API 来检查您的数据源是否支持通过 Grafana 创建规则。

录制规则

录制规则仅适用于兼容的 Prometheus 或 Loki 数据源。记录规则允许您预先计算经常需要或计算成本高昂的表达式,并将其结果保存为一组新的时间序列。如果您想对聚合数据运行警报,或者您的仪表板需要反复查询计算成本很高的表达式,则此功能非常有用。

关键概念和特点

下表列出了关键概念、功能及其定义,旨在帮助您充分利用 Grafana Alerting。

关键概念或功能 定义

警报的数据源

选择要查询并可视化其中的指标、日志和跟踪的数据源。

为警报进行配置

使用文件配置或 Terraform 管理您的警报资源并将其配置到您的 Grafana 系统中。

警报管理器

管理警报实例的路由和分组。

警报规则

一组评估标准,用于确定何时应触发警报规则。警报规则由一个或多个查询和表达式、一个条件、评估频率以及满足条件的持续时间组成。一条警报规则可以生成多个警报实例。

警报实例

警报实例是警报规则的实例。一维警报规则有一个警报实例。多维报警规则有一个或多个警报实例。与多个结果匹配的单个警报规则(例如 10 个虚拟机的 CPU)被视为多个(在本例中为 10 个)警报实例。这个数字可能会随着时间的推移而变化。例如,监控系统中所有虚拟机 CPU 使用率的警报规则随着虚拟机的添加而具有更多的警报实例。有关警报实例配额的更多信息,请参阅。已达到配额错误

警报组

默认情况下,Alertmanager 使用根通知策略的标签对警报实例进行分组。这可以控制重复数据删除和发送到联系点的警报实例组。

联络点

定义触发警报规则时如何通知您的联系人。

消息模板

创建可重复使用的自定义模板并在联络点中使用它们。

通知政策

一组规则,规定警报在何处、何时以及如何分组并发送到联络点。

标签和标签匹配器

标签唯一标识警报规则。它们将警报规则与通知策略和静默联系起来,确定应由哪个策略处理警报规则以及哪些警报规则应静音。

沉默

停止来自一个或多个警报实例的通知。静音和静音计时之间的区别在于,静音仅持续指定的时间段,而静音计时本应按计划重复。使用标签匹配器使警报实例静音。

静音计时

指定不希望生成或发送新通知的时间间隔。您还可以定期冻结警报通知,例如在维护期间。必须与现有的通知策略相关联。