Fundamentos de alertas - Amazon Managed Grafana

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Fundamentos de alertas

Este tópico de documentação foi desenvolvido para espaços de trabalho do Grafana que oferecem suporte à versão 8.x do Grafana.

Para espaços de trabalho do Grafana compatíveis com a versão 9.x do Grafana, consulteTrabalhando na versão 9 do Grafana.

Esta seção fornece informações sobre os conceitos fundamentais do alerta do Grafana.

Conceitos de alerta

A tabela a seguir descreve os principais conceitos do alerta do Grafana.

Conceito ou característica chave Definição

Fontes de dados para alerta

Selecione fontes de dados das quais você deseja consultar e visualizar métricas, registros e rastreamentos.

Scheduler

Avalia suas regras de alerta; o componente que executa consultas periódicas em fontes de dados. É aplicável apenas às regras gerenciadas pela Grafana.

Gerenciador de alertas

Gerencia o roteamento e o agrupamento de instâncias de alerta.

Regra de alerta

Um conjunto de critérios de avaliação para quando uma regra de alerta deve ser acionada. Uma regra de alerta consiste em uma ou mais consultas e expressões, uma condição, a frequência da avaliação e a duração durante a qual a condição é atendida. Uma regra de alerta pode produzir várias instâncias de alerta.

Instância de alerta

Uma instância de alerta é uma instância de uma regra de alerta. Uma regra de alerta unidimensional tem uma instância de alerta. Uma regra de alerta multidimensional tem uma ou mais instâncias de alerta. Uma única regra de alerta que corresponde a vários resultados, como CPU em relação a 10 VMs, é contada como várias (nesse caso, 10) instâncias de alerta. Esse número pode variar com o tempo. Por exemplo, uma regra de alerta que monitora o uso da CPU para todas as VMs em um sistema tem mais instâncias de alerta à medida que as VMs são adicionadas. Para obter mais informações sobre cotas de instância de alerta, consulteErros de cota atingida.

Grupo de alertas

O Alertmanager agrupa instâncias de alerta por padrão usando os rótulos da política de notificação raiz. Isso controla a eliminação da duplicação e os grupos de instâncias de alerta que são enviados aos pontos de contato.

Ponto de contato

Defina como seus contatos são notificados quando uma regra de alerta é acionada.

Modelagem de mensagens

Crie modelos personalizados reutilizáveis e use-os em pontos de contato.

Política de notificação

Conjunto de regras para onde, quando e como os alertas são agrupados e encaminhados para os pontos de contato.

Etiquetas e combinadores de etiquetas

Os rótulos identificam de forma exclusiva as regras de alerta. Eles vinculam regras de alerta a políticas e silêncios de notificação, determinando qual política deve lidar com elas e quais regras de alerta devem ser silenciadas.

Silêncios

Interrompa as notificações de uma ou mais instâncias de alerta. A diferença entre um silêncio e um tempo mudo é que o silêncio dura por uma janela de tempo específica, em que o tempo de silêncio ocorre em uma programação recorrente. Usa combinadores de rótulos para silenciar instâncias de alerta.

Horários de silenciamento

Especifique um intervalo de tempo em que você não deseja que novas notificações sejam geradas ou enviadas. Você pode congelar as notificações de alerta por períodos recorrentes, como durante um período de manutenção. Deve estar vinculado a uma política de notificação existente.

Fontes de dados de alerta

Os alertas gerenciados pelo Grafana consultam as seguintes fontes de dados de back-end que têm o alerta ativado.

  • Fontes de dados incorporadas ou desenvolvidas e mantidas pela Grafana:AlertmanagerGraphite,,Prometheus (incluindo o Amazon Managed Service for Prometheus)LokiInfluxDBAmazon OpenSearch ServiceGoogle Cloud MonitoringAmazon CloudWatchAzure Monitor,MySQL,PostgreSQL,MSSQL,OpenTSDB,Oracle,,Azure Monitor e.

Alertas sobre dados numéricos

Dados numéricos que não estão em um formato de série temporal podem ser alertados diretamente ou passados para as expressões do lado do servidor. Isso permite maior processamento e consequente eficiência na fonte de dados, além de simplificar as regras de alerta. Ao alertar sobre dados numéricos em vez de dados de séries temporais, não há necessidade de reduzir cada série temporal rotulada em um único número. Em vez disso, os números rotulados são devolvidos ao Grafana.

Dados tabulares

Esse recurso é compatível com fontes de dados de back-end que consultam dados tabulares, incluindo fontes de dados SQL, como MySQL, Postgres, MSSQL e Oracle.

Uma consulta com alertas gerenciados pelo Grafana ou expressões do lado do servidor é considerada numérica com estas fontes de dados:

  • Se aFormat AS opção estiver definida comoTable na consulta da fonte de dados.

  • Se a resposta da tabela retornada ao Grafana a partir da consulta incluir apenas uma coluna numérica (por exemplo, int, double ou float) e, opcionalmente, colunas de string adicionais.

Se houver colunas de string, essas colunas se tornarão rótulos. O nome da coluna se torna o nome do rótulo e o valor de cada linha se torna o valor do rótulo correspondente. Se várias linhas forem retornadas, cada linha deverá ser identificada exclusivamente por seus rótulos.

Exemplo

Se você tiver uma tabela MySQL chamada Diskspace, como a seguir.

Tempo Host Disk PercentFree

2021-7 de junho

web1

/etc

3

2021-7 de junho

web2

/var

4

2021-7 de junho

web3

/var

8

Você pode consultar a filtragem de dados a tempo, mas sem retornar a série temporal ao Grafana. Por exemplo, um alerta que seria iniciado por host ou disco quando houvesse menos de 5% de espaço livre poderia ter a seguinte aparência.

SELECT Host, Disk, CASE WHEN PercentFree < 5.0 THEN PercentFree ELSE 0 END FROM ( SELECT Host, Disk, Avg(PercentFree) FROM DiskSpace Group By Host, Disk Where __timeFilter(Time)

Essa consulta retorna a seguinte resposta da tabela para Grafana.

Host Disk PercentFree

web1

/etc

3

web2

/var

4

web3

/var

0

Quando essa consulta é usada como condição em uma regra de alerta, os casos em que o valor é alerta diferente de zero. Como resultado, três instâncias de alerta são produzidas, conforme a tabela a seguir.

Rótulos Status

{host = Web1, disco =/etc}

Geração de alertas

{host = Web2, disco = /var}

Geração de alertas

{host = Web3, disco = /var}

Normal

Gerenciador de alertas

O Grafana inclui suporte integrado para o Prometheus Alertmanager. O Alertmanager ajuda a agrupar e gerenciar regras de alerta, adicionando uma camada de orquestração sobre os mecanismos de alerta. Por padrão, as notificações dos alertas gerenciados pelo Grafana são tratadas pelo gerenciador de alertas incorporado que faz parte do núcleo do Grafana. Você pode configurar os pontos de contato, as políticas de notificação e os modelos do Alertmanager na interface de usuário de alertas do Grafana selecionando a opção Grafana no menu suspenso do Alertmanager.

O alerta do Grafana tem suporte para a configuração externa do Alertmanager (para obter mais informações sobre o Alertmanager como fonte de dados externa, consulteFonte de dados do Alertmanager). Quando você adiciona um Alertmanager externo, o menu suspenso Alertmanager mostra uma lista de fontes de dados externas disponíveis do Alertmanager. Selecione uma fonte de dados para criar e gerenciar alertas para fontes de dados autônomas do Cortex ou Loki.

Estado e integridade das regras de alerta

O estado e a integridade das regras de alerta ajudam você a entender vários indicadores-chave de status sobre seus alertas. Há três componentes principais: estado de alerta, estado da regra de alerta e integridade da regra de alerta. Embora relacionado, cada componente transmite informações ligeiramente diferentes.

Estado da regra de alerta

  • Normal — Nenhuma série temporal retornada pelo mecanismo de avaliação está noFiring estadoPending ou.

  • Pendente — Pelo menos uma das séries temporais retornadas pelo mecanismo de avaliação éPending.

  • Acionamento — Pelo menos uma das séries temporais retornadas pelo mecanismo de avaliação éFiring.

Estado de alerta

  • Normal — A condição da regra de alerta é falsa para cada série temporal retornada pelo mecanismo de avaliação.

  • Alerta — A condição da regra de alerta é verdadeira para pelo menos uma série temporal retornada pelo mecanismo de avaliação. A duração durante a qual a condição deve ser verdadeira antes que um alerta seja iniciado, se definido, seja atendido ou excedido.

  • Pendente — A condição da regra de alerta é verdadeira para pelo menos uma série temporal retornada pelo mecanismo de avaliação. A duração durante a qual a condição deve ser verdadeira antes de um alerta ser iniciado, se definida, não foi atendida.

  • NoData— A regra de alerta não retornou uma série temporal, todos os valores da série temporal são nulos ou todos os valores da série temporal são zero.

  • Erro — Erro ao tentar avaliar uma regra de alerta.

Integridade da regra de alerta

  • Ok — Nenhum erro ao avaliar uma regra de alerta.

  • Erro — Erro ao avaliar uma regra de alerta.

  • NoData— A ausência de dados em pelo menos uma série temporal retornada durante a avaliação de uma regra.