Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Aspectos básicos de las alertas
Este tema de documentación está diseñado para los espacios de trabajo de Grafana que admiten la versión 8.x de Grafana.
Para ver los espacios de trabajo de Grafana que admiten la versión 10.x de Grafana, consulte. Trabajando en Grafana versión 10
Para ver los espacios de trabajo de Grafana que admiten la versión 9.x de Grafana, consulte. Trabajando en Grafana versión 9
Esta sección proporciona información sobre los conceptos fundamentales de las alertas de Grafana.
Conceptos de alerta
En la siguiente tabla se describen los conceptos clave de las alertas de Grafana.
Concepto o característica clave | Definición |
---|---|
Fuentes de datos para las alertas |
Seleccione las fuentes de datos desde las que desee consultar y visualizar las métricas, los registros y los seguimientos. |
Programador |
Evalúa las reglas de alerta, el componente que ejecuta consultas periódicas en las fuentes de datos. Solo se aplica a las reglas gestionadas por Grafana. |
Gestor de alertas |
Administra el enrutamiento y la agrupación de las instancias de alerta. |
Regla de alerta |
Un conjunto de criterios de evaluación para determinar cuándo debe activarse una regla de alerta. Una regla de alerta consta de una o más consultas y expresiones, una condición, la frecuencia de la evaluación y el tiempo durante el cual se cumple la condición. Una regla de alerta puede generar varias instancias de alerta. |
Instancia de alerta |
Una instancia de alerta es una instancia de una regla de alerta. Una regla de alerta unidimensional tiene una instancia de alerta. Una regla de alerta multidimensional tiene una o más instancias de alerta. Una sola regla de alerta que coincide con varios resultados, como la CPU frente a 10 máquinas virtuales, se cuenta como varias instancias de alerta (en este caso, 10). Este número puede variar con el tiempo. Por ejemplo, una regla de alerta que supervisa el uso de la CPU de todas las máquinas virtuales de un sistema tiene más instancias de alerta a medida que se agregan las máquinas virtuales. Para obtener más información sobre las cuotas de instancias de alerta, consulte. Se alcanzó la cuota: errores |
Grupo de alertas |
El Alertmanager agrupa las instancias de alerta de forma predeterminada mediante las etiquetas de la política de notificación raíz. Esto controla la deduplicación y los grupos de instancias de alerta que se envían a los puntos de contacto. |
Punto de contacto |
Defina cómo se notifica a sus contactos cuando se activa una regla de alerta. |
Plantillas de mensajes |
Cree plantillas personalizadas reutilizables y utilícelas en los puntos de contacto. |
Política de notificaciones |
Conjunto de reglas sobre dónde, cuándo y cómo se agrupan las alertas y se envían a los puntos de contacto. |
Etiquetas y comparadores de etiquetas |
Las etiquetas identifican de forma exclusiva las reglas de alerta. Vinculan las reglas de alerta con las políticas de notificación y los silencios, determinando qué política debe gestionarlos y qué reglas de alerta deben silenciarse. |
Silencios |
Detiene las notificaciones de una o más instancias de alerta. La diferencia entre un tiempo de silencio y uno de silencio es que el silencio dura un período de tiempo específico, mientras que el tiempo de silencio se produce de forma periódica. Utiliza comparadores de etiquetas para silenciar las instancias de alerta. |
Tiempos de silencio |
Especifica un intervalo de tiempo en el que no quieres que se generen o envíen nuevas notificaciones. Puede congelar las notificaciones de alerta durante períodos de tiempo recurrentes, por ejemplo, durante un período de mantenimiento. Debe estar vinculado a una política de notificaciones existente. |
Fuentes de datos de alertas
Las alertas gestionadas de Grafana consultan las siguientes fuentes de datos de backend que tienen habilitadas las alertas.
-
Fuentes de datos integradas o desarrolladas y mantenidas por Grafana:
Alertmanager
,Graphite
,Prometheus
(incluido Amazon Managed Service for Prometheus),,,Loki
,InfluxDB
,Amazon OpenSearch Service
,,Google Cloud Monitoring
,Amazon CloudWatch
Azure Monitor
MySQL
,PostgreSQL
y.MSSQL
OpenTSDB
Oracle
Azure Monitor
Alertas sobre datos numéricos
Los datos numéricos que no están en un formato de serie temporal se pueden alertar directamente o pasar a Server Side Expressions. Esto permite un mayor procesamiento y, por lo tanto, una mayor eficiencia en la fuente de datos, y también puede simplificar las reglas de alerta. Al alertar sobre datos numéricos en lugar de datos de series temporales, no es necesario reducir cada serie temporal etiquetada a un solo número. En su lugar, los números etiquetados se devuelven a Grafana.
Datos tabulares
Esta función es compatible con las fuentes de datos de back-end que consultan datos tabulares, incluidas las fuentes de datos SQL, como MySQL, Postgres, MSSQL y Oracle.
Una consulta con alertas gestionadas por Grafana o expresiones del lado del servidor se considera numérica con las siguientes fuentes de datos:
-
Si la
Format AS
opción está configuradaTable
en la consulta de la fuente de datos. -
Si la respuesta de la tabla devuelta a Grafana desde la consulta incluye solo una columna numérica (por ejemplo, int, double o float) y, opcionalmente, columnas de cadena adicionales.
Si hay columnas de cadenas, esas columnas se convierten en etiquetas. El nombre de la columna pasa a ser el nombre de la etiqueta y el valor de cada fila pasa a ser el valor de la etiqueta correspondiente. Si se devuelven varias filas, cada fila debe identificarse de forma única por sus etiquetas.
Ejemplo
Si tienes una tabla MySQL llamada Diskspace, como la siguiente.
Tiempo | Host | Disk | PercentFree |
---|---|---|---|
7 de junio de 2021 |
web1 |
/etc |
3 |
7 de junio de 2021 |
web2 |
/var |
4 |
7 de junio de 2021 |
web3 |
/var |
8 |
… |
… |
… |
… |
Puede consultar el filtrado de datos a tiempo, pero sin devolver la serie temporal a Grafana. Por ejemplo, una alerta que se iniciaría por host y disco cuando haya menos del 5% de espacio libre podría tener el siguiente aspecto.
SELECT Host, Disk, CASE WHEN PercentFree < 5.0 THEN PercentFree ELSE 0 END FROM ( SELECT Host, Disk, Avg(PercentFree) FROM DiskSpace Group By Host, Disk Where __timeFilter(Time)
Esta consulta devuelve la siguiente respuesta de la tabla a Grafana.
Host | Disk | PercentFree |
---|---|---|
web1 |
/etc |
3 |
web2 |
/var |
4 |
web3 |
/var |
0 |
Cuando esta consulta se utiliza como condición en una regla de alerta, los casos en los que el valor es distinto de cero alertan. Como resultado, se generan tres instancias de alerta, como se muestra en la siguiente tabla.
Etiquetas | Status |
---|---|
{host=WEB1, disk=/etc} |
Alertas |
{host=WEB2, disk=/var} |
Alertas |
{host=WEB3, disk=/var} |
Normal |
Gestor de alertas
Grafana incluye soporte integrado para Prometheus Alertmanager. El Alertmanager ayuda a agrupar y gestionar las reglas de alerta, añadiendo una capa de coordinación a los motores de alertas. De forma predeterminada, las notificaciones de las alertas gestionadas por Grafana las gestiona el Alertmanager integrado que forma parte del núcleo de Grafana. Puede configurar los puntos de contacto, las políticas de notificación y las plantillas del Alertmanager desde la interfaz de usuario de alertas de Grafana seleccionando la opción Grafana en el menú desplegable de Alertmanager.
Las alertas de Grafana admiten la configuración externa de Alertmanager (para obtener más información sobre Alertmanager como fuente de datos externa, consulte). Conectarse a una fuente de datos de Alertmanager Al añadir un Alertmanager externo, el menú desplegable de Alertmanager muestra una lista de las fuentes de datos de Alertmanager externas disponibles. Seleccione una fuente de datos para crear y gestionar las alertas para las fuentes de datos independientes de Cortex o Loki.
Estado y estado de las reglas de alerta
El estado y el estado de las reglas de alerta ayudan a comprender varios indicadores clave del estado de las alertas. Hay tres componentes clave: el estado de alerta, el estado de la regla de alerta y el estado de la regla de alerta. Aunque están relacionados, cada componente transmite información ligeramente diferente.
Estado de la regla de alerta
-
Normal: ninguna de las series temporales devueltas por el motor de evaluación está en
Firing
estadoPending
o. -
Pendiente: al menos una de las series temporales devueltas por el motor de evaluación es
Pending
. -
Activación: al menos una de las series temporales devueltas por el motor de evaluación es
Firing
.
Estado de alerta
-
Normal: la condición de la regla de alerta es falsa para cada serie temporal devuelta por el motor de evaluación.
-
Alerta: la condición de la regla de alerta es válida durante al menos una serie temporal devuelta por el motor de evaluación. El período durante el cual la condición debe cumplirse antes de que se inicie una alerta, si se ha establecido, se cumple o se supera.
-
Pendiente: la condición de la regla de alerta es válida durante al menos una serie temporal devuelta por el motor de evaluación. No se ha cumplido el período durante el cual la condición debe cumplirse antes de que se inicie una alerta, si se ha establecido.
-
NoData— La regla de alerta no ha devuelto una serie temporal, todos los valores de la serie temporal son nulos o todos los valores de la serie temporal son cero.
-
Error: se produce un error al intentar evaluar una regla de alerta.
Estado de la regla de alerta
-
Ok: no hay ningún error al evaluar una regla de alerta.
-
Error: error al evaluar una regla de alerta.
-
NoData— La ausencia de datos en al menos una serie temporal devuelta durante la evaluación de una regla.