Principes fondamentaux des alertes - Amazon Managed Grafana

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Principes fondamentaux des alertes

Cette rubrique de documentation est conçue pour les espaces de travail Grafana qui prennent en charge la version 8.x de Grafana.

Pour les espaces de travail Grafana compatibles avec la version 10.x de Grafana, voir. Travailler dans la version 10 de Grafana

Pour les espaces de travail Grafana compatibles avec la version 9.x de Grafana, voir. Travailler dans la version 9 de Grafana

Cette section fournit des informations sur les concepts fondamentaux des alertes Grafana.

Concepts d'alerte

Le tableau suivant décrit les concepts clés des alertes Grafana.

Concept ou fonctionnalité clé Définition

Sources de données pour les alertes

Sélectionnez les sources de données à partir desquelles vous souhaitez interroger et visualiser les métriques, les journaux et les traces.

Planificateur

Évalue vos règles d'alerte ; il s'agit du composant qui exécute régulièrement des requêtes sur des sources de données. Elle ne s'applique qu'aux règles gérées par Grafana.

Gestionnaire d'alertes

Gère le routage et le regroupement des instances d'alerte.

Règle d'alerte

Ensemble de critères d'évaluation indiquant à quel moment une règle d'alerte doit être déclenchée. Une règle d'alerte comprend une ou plusieurs requêtes et expressions, une condition, la fréquence d'évaluation et la durée pendant laquelle la condition est remplie. Une règle d'alerte peut produire plusieurs instances d'alerte.

Instance d'alerte

Une instance d'alerte est une instance d'une règle d'alerte. Une règle d'alerte unidimensionnelle possède une instance d'alerte. Une règle d'alerte multidimensionnelle comporte une ou plusieurs instances d'alerte. Une seule règle d'alerte qui correspond à plusieurs résultats, tels que le processeur par rapport à 10 machines virtuelles, est comptée comme plusieurs (dans ce cas 10) instances d'alerte. Ce nombre peut varier au fil du temps. Par exemple, une règle d'alerte qui surveille l'utilisation du processeur pour toutes les machines virtuelles d'un système comporte davantage d'instances d'alerte au fur et à mesure que des machines virtuelles sont ajoutées. Pour plus d'informations sur les quotas d'instance d'alerte, consultez. Erreurs liées au quota atteint

Groupe d'alertes

L'Alertmanager regroupe les instances d'alerte par défaut en utilisant les étiquettes de la politique de notification racine. Cela permet de contrôler la déduplication et les groupes d'instances d'alerte envoyés aux points de contact.

Point de contact

Définissez la manière dont vos contacts sont avertis lorsqu'une règle d'alerte est déclenchée.

Modélisation de messages

Créez des modèles personnalisés réutilisables et utilisez-les dans les points de contact.

Politique de notification

Ensemble de règles indiquant où, quand et comment les alertes sont regroupées et acheminées vers les points de contact.

Étiquettes et dispositifs d'appariement

Les étiquettes identifient de manière unique les règles d'alerte. Ils relient les règles d'alerte aux politiques de notification et aux silences, afin de déterminer quelle politique doit les gérer et quelles règles d'alerte doivent être réduites au silence.

Silences

Arrêtez les notifications provenant d'une ou de plusieurs instances d'alerte. La différence entre un temps de silence et un temps de sourdine réside dans le fait qu'un silence dure pendant une période spécifiée, pendant laquelle un temps de silence se produit selon un calendrier récurrent. Utilise des analyseurs d'étiquettes pour désactiver les instances d'alerte.

Horaire du mode muet

Spécifiez un intervalle de temps pendant lequel vous ne souhaitez pas que de nouvelles notifications soient générées ou envoyées. Vous pouvez geler les notifications d'alerte pendant des périodes récurrentes, par exemple pendant une période de maintenance. Doit être lié à une politique de notification existante.

Sources de données d'alerte

Les alertes gérées par Grafana interrogent les sources de données principales suivantes pour lesquelles les alertes sont activées.

  • Sources de données intégrées, ou développées et gérées par Grafana :Alertmanager,Graphite, Prometheus (y compris Amazon Managed Service for Prometheus),,,,,Loki,InfluxDB,Amazon OpenSearch Service,Google Cloud Monitoring,, Amazon CloudWatch Azure MonitorMySQL, PostgreSQL et. MSSQL OpenTSDB Oracle Azure Monitor

Alertes sur les données numériques

Les données numériques qui ne sont pas au format de série chronologique peuvent être directement alertées ou transmises aux expressions côté serveur. Cela permet d'améliorer le traitement et l'efficacité qui en résulte au sein de la source de données, tout en simplifiant les règles d'alerte. Lorsque vous lancez une alerte sur des données numériques plutôt que sur des données de séries chronologiques, il n'est pas nécessaire de réduire chaque série chronologique étiquetée en un seul chiffre. Au lieu de cela, les numéros étiquetés sont renvoyés à Grafana.

Données tabulaires

Cette fonctionnalité est prise en charge par les sources de données principales qui interrogent des données tabulaires, notamment les sources de données SQL, telles que MySQL, Postgres, MSSQL et Oracle.

Une requête contenant des alertes gérées par Grafana ou des expressions côté serveur est considérée comme numérique avec les sources de données suivantes :

  • Si l'Format ASoption est définie sur Table dans la requête de source de données.

  • Si la réponse de table renvoyée à Grafana par la requête inclut une seule colonne numérique (par exemple, int, double ou float) et éventuellement des colonnes de chaîne supplémentaires.

S'il existe des colonnes de chaînes, ces colonnes deviennent des étiquettes. Le nom de la colonne devient le nom de l'étiquette, et la valeur de chaque ligne devient la valeur de l'étiquette correspondante. Si plusieurs lignes sont renvoyées, chaque ligne doit être identifiée de manière unique par son étiquette.

Exemple

Si vous avez une table MySQL appelée Diskspace, comme suit.

Heure Host (Hôte) Disk PercentFree

7 juin 2021

web1

/etc

3

7 juin 2021

web2

/var

4

7 juin 2021

web3

/var

8

Vous pouvez interroger le filtrage des données à temps, mais sans renvoyer les séries chronologiques à Grafana. Par exemple, une alerte lancée par hôte ou disque lorsqu'il y a moins de 5 % d'espace libre peut ressembler à ce qui suit.

SELECT Host, Disk, CASE WHEN PercentFree < 5.0 THEN PercentFree ELSE 0 END FROM ( SELECT Host, Disk, Avg(PercentFree) FROM DiskSpace Group By Host, Disk Where __timeFilter(Time)

Cette requête renvoie la réponse du tableau suivant à Grafana.

Host (Hôte) Disk PercentFree

web1

/etc

3

web2

/var

4

web3

/var

0

Lorsque cette requête est utilisée comme condition dans une règle d'alerte, les cas où la valeur est différente de zéro sont une alerte. Par conséquent, trois instances d'alerte sont produites, comme indiqué dans le tableau suivant.

Étiquettes Statut

{Host=Web1, disk=/etc}

Alerte

{Host=Web2, disk=/var}

Alerte

{Host=Web3, disk=/var}

Normal

Gestionnaire d'alertes

Grafana inclut un support intégré pour Prometheus Alertmanager. L'Alertmanager permet à la fois de regrouper et de gérer les règles d'alerte, en ajoutant une couche d'orchestration au-dessus des moteurs d'alerte. Par défaut, les notifications relatives aux alertes gérées par Grafana sont gérées par le gestionnaire d'alertes intégré qui fait partie du noyau de Grafana. Vous pouvez configurer les points de contact, les politiques de notification et les modèles du gestionnaire d'alertes à partir de l'interface utilisateur d'alerte Grafana en sélectionnant l'option Grafana dans la liste déroulante du gestionnaire d'alertes.

Les alertes Grafana prennent en charge la configuration externe d'Alertmanager (pour plus d'informations sur Alertmanager en tant que source de données externe, voir). Se connecter à une source de données Alertmanager Lorsque vous ajoutez un Alertmanager externe, le menu déroulant Alertmanager affiche une liste des sources de données Alertmanager externes disponibles. Sélectionnez une source de données pour créer et gérer des alertes pour les sources de données Cortex ou Loki autonomes.

État et état des règles d'alerte

L'état et l'état des règles d'alerte vous aident à comprendre plusieurs indicateurs clés relatifs à l'état de vos alertes. Il existe trois éléments clés : l'état de l'alerte, l'état de la règle d'alerte et l'état de la règle d'alerte. Bien que lié, chaque composant transmet des informations légèrement différentes.

État de la règle d'alerte

  • Normal — Aucune des séries chronologiques renvoyées par le moteur d'évaluation n'est à Firing l'état Pending or.

  • En attente — Au moins l'une des séries chronologiques renvoyées par le moteur d'évaluation estPending.

  • Mise à feu — Au moins l'une des séries chronologiques renvoyées par le moteur d'évaluation estFiring.

État de l'alerte

  • Normal — La condition de la règle d'alerte est fausse pour chaque série chronologique renvoyée par le moteur d'évaluation.

  • Alerte : la condition de la règle d'alerte est vraie pour au moins une série chronologique renvoyée par le moteur d'évaluation. Durée pendant laquelle la condition doit être vraie avant qu'une alerte ne soit déclenchée, si elle est définie, si elle est remplie ou si elle est dépassée.

  • En attente : la condition de la règle d'alerte est vraie pour au moins une série chronologique renvoyée par le moteur d'évaluation. La durée pendant laquelle la condition doit être vraie avant qu'une alerte ne soit déclenchée, si elle est définie, n'est pas remplie.

  • NoData— La règle d'alerte n'a renvoyé aucune série chronologique, toutes les valeurs de la série chronologique sont nulles ou toutes les valeurs de la série chronologique sont nulles.

  • Erreur : erreur lors de la tentative d'évaluation d'une règle d'alerte.

État des règles d'alerte

  • Ok — Aucune erreur lors de l'évaluation d'une règle d'alerte.

  • Erreur : erreur lors de l'évaluation d'une règle d'alerte.

  • NoData— L'absence de données dans au moins une série chronologique renvoyée lors de l'évaluation d'une règle.