Conceitos de alertas Fontes de dados de alertas Alertas sobre dados numéricos Alertmanager Estado e integridade das regras de alertas

Conceitos básicos do alerta

Este tópico de documentação foi desenvolvido para espaços de trabalho do Grafana compatíveis com o Grafana versão 8.x.

Para espaços de trabalho do Grafana compatíveis com o Grafana versão 10.x, consulte Trabalhar no Grafana versão 10.

Para espaços de trabalho do Grafana compatíveis com o Grafana versão 9.x, consulte Trabalhar no Grafana versão 9.

Esta seção fornece informações sobre os conceitos básicos do Grafana Alerting.

Conceitos de alertas

A tabela a seguir descreve os principais conceitos do Grafana Alerting.

Principal conceito ou recurso	Definição
Fontes de dados para alertas	Selecione as fontes de dados das quais você deseja consultar e visualizar métricas, logs e rastreamentos.
Scheduler	Avalia as regras de alerta; o componente que periodicamente executa consultas em fontes de dados. É aplicável apenas às regras gerenciadas pelo Grafana.
Alertmanager	Gerencia o roteamento e o agrupamento de instâncias de alertas.
Regra de alerta	Um conjunto de critérios de avaliação para quando uma regra de alerta deve ser acionada. Uma regra de alerta consiste em uma ou mais consultas e expressões, uma condição, a frequência da avaliação e a duração em que a condição é atendida. Uma regra de alerta pode produzir várias instâncias de alertas.
Instância de alerta	Uma instância de alerta é uma instância de uma regra de alerta. Uma regra de alerta unidimensional tem uma instância de alerta. Uma regra de alerta multidimensional tem uma ou mais instâncias de alertas. Uma única regra de alerta que corresponda a vários resultados, como CPU em dez VMs, é contabilizada como várias (neste caso, dez) instâncias de alertas. Esse número pode variar com o tempo. Por exemplo, uma regra de alerta que monitora o uso da CPU para todos VMs em um sistema tem mais instâncias de alertas à medida que VMs são adicionadas. Para obter mais informações sobre cotas de instâncias de alertas, consulte Cota alcançada de erros.
Grupo de alertas	O Alertmanager agrupa instâncias de alertas por padrão usando os rótulos da política de notificação raiz. Isso controla a eliminação de duplicação e os grupos de instâncias de alertas que são enviadas aos pontos de contato.
Ponto de contato	Defina como seus contatos são notificados quando uma regra de alerta é acionada.
Modelos de mensagens	Crie modelos personalizados reutilizáveis e use-os em pontos de contato.
Política de notificação	Conjunto de regras para onde, quando e como os alertas são agrupados e roteados para os pontos de contato.
Rótulos e matchers de rótulos	Os rótulos identificam de forma exclusiva as regras de alertas. Eles vinculam as regras de alertas a silêncios e políticas de notificação, determinando qual política deve lidar com eles e quais regras de alerta devem ser silenciadas.
Silêncios	Interrompa as notificações de uma ou mais instâncias de alerta. A diferença entre tempo de silêncio e de desativação de áudio é que o silêncio dura por uma janela de tempo específica, e a desativação de áudio acontece em uma programação recorrente. Usa matcher de rótulos para silenciar instâncias de alertas.
Tempos de desativação de áudio	Especifique um intervalo de tempo em que você não deseja que novas notificações sejam geradas ou enviadas. Você pode congelar as notificações de alerta por períodos recorrentes, como durante um período de manutenção. Deve estar vinculado a uma política de notificação existente.

Fontes de dados de alertas

Os alertas gerenciados pelo Grafana consultam as fontes de dados de backend a seguir que têm os alertas habilitados.

Fontes de dados integradas ou desenvolvidas e mantidas pelo Grafana: Alertmanager, Graphite, Prometheus (incluindo o Amazon Managed Service for Prometheus), Loki, InfluxDB, Amazon OpenSearch Service, Google Cloud Monitoring, Amazon CloudWatch, Azure Monitor, MySQL, PostgreSQL, MSSQL, OpenTSDB, Oracle e Azure Monitor.

Alertas sobre dados numéricos

Os dados numéricos que não estão em um formato de série temporal podem ser alertados diretamente ou passados para as expressões do servidor. Isso permite mais processamento e eficiência resultante na fonte de dados, além de simplificar as regras de alertas. Ao alertar sobre dados numéricos em vez de dados de séries temporais, não há necessidade de reduzir cada série temporal rotulada em um único número. Em vez disso, os números rotulados são retornados para o Grafana.

Dados tabulares

Esse recurso é compatível com fontes de dados de backend que consultam dados tabulares, incluindo fontes de dados de SQL, como MySQL, Postgres, MSSQL e Oracle.

Uma consulta com alertas gerenciados pelo Grafana ou expressões do servidor é considerada numérica com estas fontes de dados:

Se a opção Format AS estiver definida como Table na consulta da fonte de dados.
Se a resposta da tabela retornada ao Grafana da consulta incluir apenas uma coluna numérica (por exemplo, int, double ou float) e, opcionalmente, colunas de string adicionais.

Se houver colunas de string, essas colunas se tornarão rótulos. O nome da coluna torna-se o nome do rótulo, e o valor de cada linha torna-se o valor do rótulo correspondente. Se várias linhas forem retornadas, cada linha deverá ser identificada exclusivamente por seus rótulos.

Exemplo

Se você tiver uma tabela MySQL chamada Diskspace, como a seguir.

Tempo	Host	Disk	PercentFree
7 de junho de 2021	web1	/etc	3
7 de junho de 2021	web2	/var	4
7 de junho de 2021	web3	/var	8
…	…	…	…

Você pode consultar a filtragem de dados a tempo, mas sem retornar a série temporal ao Grafana. Por exemplo, veja abaixo um alerta que seria iniciado por host, disco quando houvesse menos de 5% de espaço livre.


SELECT Host, Disk, CASE WHEN PercentFree < 5.0 THEN PercentFree ELSE 0 END FROM (
  SELECT
      Host,
      Disk,
      Avg(PercentFree)
  FROM DiskSpace
  Group By
    Host,
    Disk
  Where __timeFilter(Time)

Essa consulta retorna a resposta de tabela a seguir ao Grafana.

Host	Disk	PercentFree
web1	/etc	3
web2	/var	4
web3	/var	0

Quando essa consulta é usada como condição em uma regra de alerta, então os casos em que o valor for diferente de zero alertarão. Como resultado, três instâncias de alerta são produzidas, conforme a tabela a seguir.

Rótulos	Status
{Host=web1,disk=/etc}	Geração de alertas
{Host=web2,disk=/var}	Geração de alertas
{Host=web3,disk=/var}	Normal

Alertmanager

O Grafana inclui suporte integrado para o Alertmanager do Prometheus. O Alertmanager ajuda a agrupar e gerenciar as regras de alertas, adicionando uma camada de orquestração sobre os mecanismos de alertas. Por padrão, as notificações dos alertas gerenciados pelo Grafana são executados pelo Alertmanager incorporado, que faz parte do núcleo do Grafana. Você pode configurar os pontos de contato, as políticas de notificação e os modelos do Alertmanager na interface de usuário do Grafana Alerting selecionando a opção Grafana no menu suspenso do Alertmanager.

O Grafana Alerting é compatível com a configuração externa do Alertmanager (para obter mais informações sobre o Alertmanager como fonte de dados externa, consulte Conectar-se a uma fonte de dados Alertmanager). Quando você adiciona um Alertmanager externo, o menu suspenso dele mostra uma lista de fontes de dados externas disponíveis do Alertmanager. Selecione uma fonte de dados para criar e gerenciar alertas para fontes de dados autônomas do Cortex ou Loki.

Estado e integridade das regras de alertas

O estado e a integridade das regras de alertas ajudam você a entender vários indicadores-chave de status sobre os alertas. Há três componentes principais: estado do alerta, estado da regra do alerta e integridade da regra do alerta. Embora estejam relacionados, cada componente fornece informações ligeiramente diferentes.

Estado da regra do alerta

Normal: nenhuma das séries temporais retornadas pelo mecanismo de avaliação está em um estado Pending ou Firing.
Pendente: pelo menos uma das séries temporais retornadas pelo mecanismo de avaliação está no estado Pending.
Disparado: pelo menos uma das séries temporais retornadas pelo mecanismo de avaliação está no estado Firing.

Estado do alerta

Normal: a condição da regra do alerta é false para cada série temporal retornada pelo mecanismo de avaliação.
Alerta: a condição da regra do alerta é true para pelo menos uma série temporal retornada pelo mecanismo de avaliação. A duração durante a qual a condição deve ser true antes que um alerta seja iniciado, se a definição tiver sido atendida ou excedido.
Pendente: a condição da regra do alerta é true para pelo menos uma série temporal retornada pelo mecanismo de avaliação. A duração durante a qual a condição deve ser true antes que um alerta seja iniciado, se a definição não tiver sido atendida.
NoData: a regra do alerta não retornou uma série temporal, todos os valores da série temporal são nulos ou todos os valores da série temporal são zero.
Erro: erro ao tentar avaliar uma regra do alerta.

Integridade da regra do alerta

Ok: nenhum erro ao avaliar uma regra do alerta.
Erro: erro ao avaliar uma regra do alerta.
NoData: a ausência de dados em pelo menos uma série temporal retornada durante a avaliação de uma regra.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Migrar para o Grafana Alerting

Regras de alertas