Aspectos básicos de las alertas - Amazon Managed Grafana

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Aspectos básicos de las alertas

Este tema de documentación está diseñado para los espacios de trabajo de Grafana que admiten la versión 8.x de Grafana.

Para ver los espacios de trabajo de Grafana que admiten la versión 10.x de Grafana, consulte. Trabajando en Grafana versión 10

Para ver los espacios de trabajo de Grafana que admiten la versión 9.x de Grafana, consulte. Trabajando en Grafana versión 9

Esta sección proporciona información sobre los conceptos fundamentales de las alertas de Grafana.

Conceptos de alerta

En la siguiente tabla se describen los conceptos clave de las alertas de Grafana.

Concepto o característica clave Definición

Fuentes de datos para las alertas

Seleccione las fuentes de datos desde las que desee consultar y visualizar las métricas, los registros y los seguimientos.

Programador

Evalúa las reglas de alerta, el componente que ejecuta consultas periódicas en las fuentes de datos. Solo se aplica a las reglas gestionadas por Grafana.

Gestor de alertas

Administra el enrutamiento y la agrupación de las instancias de alerta.

Regla de alerta

Un conjunto de criterios de evaluación para determinar cuándo debe activarse una regla de alerta. Una regla de alerta consta de una o más consultas y expresiones, una condición, la frecuencia de la evaluación y el tiempo durante el cual se cumple la condición. Una regla de alerta puede generar varias instancias de alerta.

Instancia de alerta

Una instancia de alerta es una instancia de una regla de alerta. Una regla de alerta unidimensional tiene una instancia de alerta. Una regla de alerta multidimensional tiene una o más instancias de alerta. Una sola regla de alerta que coincide con varios resultados, como la CPU frente a 10 máquinas virtuales, se cuenta como varias instancias de alerta (en este caso, 10). Este número puede variar con el tiempo. Por ejemplo, una regla de alerta que supervisa el uso de la CPU de todas las máquinas virtuales de un sistema tiene más instancias de alerta a medida que se agregan las máquinas virtuales. Para obtener más información sobre las cuotas de instancias de alerta, consulte. Se alcanzó la cuota: errores

Grupo de alertas

El Alertmanager agrupa las instancias de alerta de forma predeterminada mediante las etiquetas de la política de notificación raíz. Esto controla la deduplicación y los grupos de instancias de alerta que se envían a los puntos de contacto.

Punto de contacto

Defina cómo se notifica a sus contactos cuando se activa una regla de alerta.

Plantillas de mensajes

Cree plantillas personalizadas reutilizables y utilícelas en los puntos de contacto.

Política de notificaciones

Conjunto de reglas sobre dónde, cuándo y cómo se agrupan las alertas y se envían a los puntos de contacto.

Etiquetas y comparadores de etiquetas

Las etiquetas identifican de forma exclusiva las reglas de alerta. Vinculan las reglas de alerta con las políticas de notificación y los silencios, determinando qué política debe gestionarlos y qué reglas de alerta deben silenciarse.

Silencios

Detiene las notificaciones de una o más instancias de alerta. La diferencia entre un tiempo de silencio y uno de silencio es que el silencio dura un período de tiempo específico, mientras que el tiempo de silencio se produce de forma periódica. Utiliza comparadores de etiquetas para silenciar las instancias de alerta.

Tiempos de silencio

Especifica un intervalo de tiempo en el que no quieres que se generen o envíen nuevas notificaciones. Puede congelar las notificaciones de alerta durante períodos de tiempo recurrentes, por ejemplo, durante un período de mantenimiento. Debe estar vinculado a una política de notificaciones existente.

Fuentes de datos de alertas

Las alertas gestionadas de Grafana consultan las siguientes fuentes de datos de backend que tienen habilitadas las alertas.

  • Fuentes de datos integradas o desarrolladas y mantenidas por Grafana:Alertmanager,Graphite, Prometheus (incluido Amazon Managed Service for Prometheus),,,Loki,InfluxDB,Amazon OpenSearch Service,,Google Cloud Monitoring, Amazon CloudWatch Azure MonitorMySQL, PostgreSQL y. MSSQL OpenTSDB Oracle Azure Monitor

Alertas sobre datos numéricos

Los datos numéricos que no están en un formato de serie temporal se pueden alertar directamente o pasar a Server Side Expressions. Esto permite un mayor procesamiento y, por lo tanto, una mayor eficiencia en la fuente de datos, y también puede simplificar las reglas de alerta. Al alertar sobre datos numéricos en lugar de datos de series temporales, no es necesario reducir cada serie temporal etiquetada a un solo número. En su lugar, los números etiquetados se devuelven a Grafana.

Datos tabulares

Esta función es compatible con las fuentes de datos de back-end que consultan datos tabulares, incluidas las fuentes de datos SQL, como MySQL, Postgres, MSSQL y Oracle.

Una consulta con alertas gestionadas por Grafana o expresiones del lado del servidor se considera numérica con las siguientes fuentes de datos:

  • Si la Format AS opción está configurada Table en la consulta de la fuente de datos.

  • Si la respuesta de la tabla devuelta a Grafana desde la consulta incluye solo una columna numérica (por ejemplo, int, double o float) y, opcionalmente, columnas de cadena adicionales.

Si hay columnas de cadenas, esas columnas se convierten en etiquetas. El nombre de la columna pasa a ser el nombre de la etiqueta y el valor de cada fila pasa a ser el valor de la etiqueta correspondiente. Si se devuelven varias filas, cada fila debe identificarse de forma única por sus etiquetas.

Ejemplo

Si tienes una tabla MySQL llamada Diskspace, como la siguiente.

Tiempo Host Disk PercentFree

7 de junio de 2021

web1

/etc

3

7 de junio de 2021

web2

/var

4

7 de junio de 2021

web3

/var

8

Puede consultar el filtrado de datos a tiempo, pero sin devolver la serie temporal a Grafana. Por ejemplo, una alerta que se iniciaría por host y disco cuando haya menos del 5% de espacio libre podría tener el siguiente aspecto.

SELECT Host, Disk, CASE WHEN PercentFree < 5.0 THEN PercentFree ELSE 0 END FROM ( SELECT Host, Disk, Avg(PercentFree) FROM DiskSpace Group By Host, Disk Where __timeFilter(Time)

Esta consulta devuelve la siguiente respuesta de la tabla a Grafana.

Host Disk PercentFree

web1

/etc

3

web2

/var

4

web3

/var

0

Cuando esta consulta se utiliza como condición en una regla de alerta, los casos en los que el valor es distinto de cero alertan. Como resultado, se generan tres instancias de alerta, como se muestra en la siguiente tabla.

Etiquetas Status

{host=WEB1, disk=/etc}

Alertas

{host=WEB2, disk=/var}

Alertas

{host=WEB3, disk=/var}

Normal

Gestor de alertas

Grafana incluye soporte integrado para Prometheus Alertmanager. El Alertmanager ayuda a agrupar y gestionar las reglas de alerta, añadiendo una capa de coordinación a los motores de alertas. De forma predeterminada, las notificaciones de las alertas gestionadas por Grafana las gestiona el Alertmanager integrado que forma parte del núcleo de Grafana. Puede configurar los puntos de contacto, las políticas de notificación y las plantillas del Alertmanager desde la interfaz de usuario de alertas de Grafana seleccionando la opción Grafana en el menú desplegable de Alertmanager.

Las alertas de Grafana admiten la configuración externa de Alertmanager (para obtener más información sobre Alertmanager como fuente de datos externa, consulte). Conectarse a una fuente de datos de Alertmanager Al añadir un Alertmanager externo, el menú desplegable de Alertmanager muestra una lista de las fuentes de datos de Alertmanager externas disponibles. Seleccione una fuente de datos para crear y gestionar las alertas para las fuentes de datos independientes de Cortex o Loki.

Estado y estado de las reglas de alerta

El estado y el estado de las reglas de alerta ayudan a comprender varios indicadores clave del estado de las alertas. Hay tres componentes clave: el estado de alerta, el estado de la regla de alerta y el estado de la regla de alerta. Aunque están relacionados, cada componente transmite información ligeramente diferente.

Estado de la regla de alerta

  • Normal: ninguna de las series temporales devueltas por el motor de evaluación está en Firing estado Pending o.

  • Pendiente: al menos una de las series temporales devueltas por el motor de evaluación esPending.

  • Activación: al menos una de las series temporales devueltas por el motor de evaluación esFiring.

Estado de alerta

  • Normal: la condición de la regla de alerta es falsa para cada serie temporal devuelta por el motor de evaluación.

  • Alerta: la condición de la regla de alerta es válida durante al menos una serie temporal devuelta por el motor de evaluación. El período durante el cual la condición debe cumplirse antes de que se inicie una alerta, si se ha establecido, se cumple o se supera.

  • Pendiente: la condición de la regla de alerta es válida durante al menos una serie temporal devuelta por el motor de evaluación. No se ha cumplido el período durante el cual la condición debe cumplirse antes de que se inicie una alerta, si se ha establecido.

  • NoData— La regla de alerta no ha devuelto una serie temporal, todos los valores de la serie temporal son nulos o todos los valores de la serie temporal son cero.

  • Error: se produce un error al intentar evaluar una regla de alerta.

Estado de la regla de alerta

  • Ok: no hay ningún error al evaluar una regla de alerta.

  • Error: error al evaluar una regla de alerta.

  • NoData— La ausencia de datos en al menos una serie temporal devuelta durante la evaluación de una regla.