Création de règles d'alerte gérées par Grafana - Amazon Managed Grafana

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création de règles d'alerte gérées par Grafana

Cette rubrique de documentation est conçue pour les espaces de travail Grafana qui prennent en charge la version 9.x de Grafana.

Pour les espaces de travail Grafana compatibles avec la version 10.x de Grafana, voir. Travailler dans la version 10 de Grafana

Pour les espaces de travail Grafana compatibles avec la version 8.x de Grafana, voir. Travailler dans la version 8 de Grafana

Grafana vous permet de créer des règles d'alerte qui interrogent une ou plusieurs sources de données, réduisent ou transforment les résultats et les comparent entre eux ou à des seuils fixes. Lorsque ceux-ci sont exécutés, Grafana envoie des notifications au point de contact.

Pour ajouter une règle gérée par Grafana
  1. Depuis votre console Grafana, dans le menu Grafana, choisissez l'icône d'alerte (cloche) pour ouvrir la page d'alerte répertoriant les alertes existantes.

  2. Choisissez Nouvelle règle d'alerte.

  3. À l'étape 1, ajoutez le nom, le type et l'emplacement de stockage de la règle, comme suit :

    • Dans Nom de la règle, ajoutez un nom descriptif. Ce nom est affiché dans la liste des règles d'alerte. Il s'agit également de l'alertnameétiquette de chaque instance d'alerte créée à partir de cette règle.

    • Dans la liste déroulante Type de règle, sélectionnez Alerte gérée par Grafana.

    • Dans le menu déroulant Dossier, sélectionnez le dossier dans lequel vous souhaitez stocker la règle. Si vous ne sélectionnez aucun dossier, la règle est enregistrée dans le General dossier. Pour créer un dossier, sélectionnez le menu déroulant et entrez un nouveau nom de dossier.

  4. À l'étape 2, ajoutez les requêtes et les expressions à évaluer.

    • Conservez le nom par défaut ou passez la souris dessus et cliquez sur l'icône d'édition pour modifier le nom.

    • Pour les requêtes, sélectionnez une source de données dans le menu déroulant.

    • Ajoutez une ou plusieurs requêtes ou expressions.

    • Pour chaque expression, sélectionnez soit la condition classique pour créer une règle d'alerte unique, soit les options Mathématiques, Réduire ou Rééchantillonner pour générer des alertes distinctes pour chaque série. Pour plus de détails sur ces options, consultezRègles uniques et multidimensionnelles.

    • Choisissez Exécuter les requêtes pour vérifier que la requête est réussie.

  5. À l'étape 3, ajoutez des conditions.

    • Dans le menu déroulant Condition, sélectionnez la requête ou l'expression pour lancer la règle d'alerte.

    • Pour Evaluer chaque, spécifiez la fréquence d'évaluation. Ce doit être un multiple de 10 secondes. Par exemple, 1m, 30s.

    • Pour Evaluer pour, spécifiez la durée pendant laquelle la condition doit être vraie avant qu'une alerte ne soit déclenchée.

      Note

      Lorsqu'une condition est violée, l'alerte passe à Pending l'état. Si la condition reste violée pendant la durée spécifiée, l'alerte passe à l'Firingétat. S'il n'est plus atteint, il revient à l'Normalétat.

    • Dans Configurer l'absence de données et la gestion des erreurs, configurez le comportement des alertes en l'absence de données. Utilisez les instructions contenues dans. Gestion de l'absence de données ou des cas d'erreur

    • Choisissez Prévisualiser les alertes pour vérifier le résultat de l'exécution de la requête en ce moment. L'aperçu exclut l'absence de données et les conditions de gestion des erreurs.

  6. À l'étape 4, ajoutez des métadonnées supplémentaires associées à la règle.

    • Ajoutez une description et un résumé pour personnaliser les messages d'alerte. Utilisez les directives dansÉtiquettes et annotations.

    • Ajoutez l'URL, le panneau, le tableau de bord et les identifiants d'alerte de Runbook.

    • Ajoutez des étiquettes personnalisées.

  7. Choisissez Enregistrer pour enregistrer la règle ou Enregistrer et quitter pour enregistrer la règle et revenir à la page d'alerte.

Après avoir créé votre règle, vous pouvez créer une notification pour celle-ci. Pour plus d'informations sur les notifications, consultez la page Gérez vos notifications d'alerte.

Règles uniques et multidimensionnelles

Pour les règles d'alerte gérées par Grafana, vous pouvez créer une règle avec une condition classique ou vous pouvez créer une règle multidimensionnelle.

Règle unidimensionnelle (condition classique)

Utilisez une expression de condition classique pour créer une règle qui déclenche une seule alerte lorsque sa condition est remplie. Pour une requête qui renvoie plusieurs séries, Grafana ne suit pas l'état d'alerte de chaque série. Grafana n'envoie donc qu'une seule alerte, même lorsque les conditions d'alerte sont remplies pour plusieurs séries.

Pour plus d'informations sur le formatage des expressions, voir Expressions dans la documentation de Grafana.

Règle multidimensionnelle

Pour générer une instance d'alerte distincte pour chaque série renvoyée dans la requête, créez une règle multidimensionnelle.

Note

Chaque instance d'alerte générée par une règle multidimensionnelle est prise en compte dans votre quota total d'alertes. Les règles ne sont pas évaluées lorsque vous atteignez votre quota d'alertes. Pour plus d'informations sur les quotas pour les règles multidimensionnelles, consultezErreurs liées au quota atteint.

Pour créer plusieurs instances à partir d'une seule règle MathReduce, utilisez ou Resample expressions pour créer une règle multidimensionnelle. Par exemple, vous pouvez :

  • Ajoutez une Reduce expression pour chaque requête afin d'agréger les valeurs de la plage de temps sélectionnée en une seule valeur. (Non nécessaire pour les règles utilisant des données numériques).

  • Ajoutez une Math expression avec la condition de la règle. Cela n'est pas nécessaire si une requête ou une expression de réduction renvoie déjà 0 si la règle ne doit pas déclencher d'alerte, ou un nombre positif si elle doit lancer une alerte.

    Voici quelques exemples :

    • $B > 70s'il doit lancer une alerte si la valeur de la requête/expression B est supérieure à 70.

    • $B < $C * 100au cas où il devrait lancer une alerte si la valeur de B est inférieure à la valeur de C multipliée par 100. Si les requêtes comparées contiennent plusieurs séries dans leurs résultats, les séries issues de différentes requêtes sont mises en correspondance si elles ont les mêmes étiquettes ou si l'une est un sous-ensemble de l'autre.

Note

Grafana ne prend pas en charge les requêtes d'alerte avec des variables de modèle. Plus d'informations sont disponibles sur la page de communauté Les variables de modèle ne sont pas prises en charge dans les requêtes d'alerte lors de la configuration d'Alert.

Considérations relatives aux performances pour les règles multidimensionnelles

Chaque instance d'alerte est prise en compte dans le quota d'alertes. Les règles multidimensionnelles qui créent un nombre d'instances supérieur au quota d'alerte ne sont pas évaluées et renvoient une erreur de quota. Pour plus d’informations, consultez Erreurs liées au quota atteint.

Les alertes multidimensionnelles peuvent avoir un impact important sur les performances de votre espace de travail Grafana, ainsi que sur les performances de vos sources de données lorsque Grafana les interroge pour évaluer vos règles d'alerte. Les considérations suivantes peuvent être utiles lorsque vous essayez d'optimiser les performances de votre système de surveillance.

  • Fréquence d'évaluation des règles — La propriété Evaluer chaque règle d'alerte contrôle la fréquence d'évaluation des règles. Nous recommandons d'utiliser la fréquence d'évaluation la plus basse acceptable.

  • Cardinalité de l'ensemble de résultats : le nombre d'instances d'alerte que vous créez avec une règle influe sur ses performances. Supposons que vous surveillez les erreurs de réponse d'API pour chaque chemin d'API, sur chaque machine virtuelle de votre parc. Cet ensemble a pour cardinalité le nombre de chemins multiplié par le nombre de machines virtuelles. Vous pouvez réduire la cardinalité du jeu de résultats, par exemple en surveillant le nombre total d'erreurs par machine virtuelle plutôt que par chemin par machine virtuelle.

  • Complexité de la requête : les requêtes que les sources de données peuvent traiter et auxquelles elles peuvent répondre rapidement consomment moins de ressources. Bien que cette considération soit moins importante que les autres considérations répertoriées ci-dessus, si vous les réduisez autant que possible, l'examen des performances de chaque requête peut faire la différence. Vous devez également être conscient de l'impact de l'évaluation de ces règles sur les performances de vos sources de données. Les requêtes d'alerte constituent souvent la grande majorité des requêtes traitées par les bases de données de surveillance, de sorte que les mêmes facteurs de charge qui affectent l'instance de Grafana les affectent également.

Erreurs liées au quota atteint

Il existe un quota pour le nombre d'instances d'alerte que vous pouvez avoir dans un même espace de travail. Lorsque vous atteignez ce nombre, vous ne pouvez plus créer de nouvelles règles d'alerte dans cet espace de travail. Avec les alertes multidimensionnelles, le nombre d'instances d'alerte peut varier dans le temps.

Il est important de garder à l'esprit les points suivants lorsque vous travaillez avec des instances d'alerte.

  • Si vous créez uniquement des règles unidimensionnelles, chaque règle est une instance d'alerte unique. Vous pouvez créer le même nombre de règles dans un même espace de travail que votre quota d'instance d'alerte, mais pas plus.

  • Les règles multidimensionnelles créent plusieurs instances d'alerte, mais leur nombre n'est pas connu tant qu'elles ne sont pas évaluées. Par exemple, si vous créez une règle d'alerte qui suit l'utilisation du processeur de vos instances Amazon EC2, il se peut qu'il y ait 50 instances EC2 lorsque vous la créez (et donc 50 instances d'alerte), mais si vous ajoutez 10 instances EC2 supplémentaires une semaine plus tard, l'évaluation suivante comportera 60 instances d'alerte.

    Le nombre d'instances d'alerte est évalué lorsque vous créez une alerte multidimensionnelle, et vous ne pouvez pas en créer une qui vous fasse immédiatement dépasser votre quota d'instances d'alerte. Le nombre d'instances d'alerte étant susceptible de changer, votre quota est vérifié chaque fois que vos règles sont évaluées.

  • Au moment de l'évaluation d'une règle, si une règle vous oblige à dépasser votre quota d'instances d'alerte, cette règle n'est pas évaluée tant qu'une mise à jour n'est pas apportée à la règle d'alerte qui ramène le nombre total d'instances d'alerte en dessous du quota de service. Dans ce cas, vous recevez une notification d'alerte vous informant que votre quota a été atteint (la notification utilise la politique de notification de la règle en cours d'évaluation). La notification inclut une Error annotation avec la valeurQuotaReachedError.

  • Règle qui entraîne l'évaluation d'un QuotaReachedError arrêt. L'évaluation ne reprend que lorsqu'une mise à jour est effectuée et l'évaluation après la mise à jour ne provoque pas elle-même deQuotaReachedError. Une règle qui n'est pas en cours d'évaluation indique l'erreur Quota atteint dans la console Grafana.

  • Vous pouvez réduire le nombre d'instances d'alerte en supprimant les règles d'alerte ou en modifiant les alertes multidimensionnelles afin de réduire le nombre d'instances d'alerte (par exemple, en ayant une alerte sur les erreurs par machine virtuelle, plutôt qu'une alerte sur les erreurs par API dans une machine virtuelle).

  • Pour reprendre les évaluations, mettez à jour l'alerte et enregistrez-la. Vous pouvez le mettre à jour pour réduire le nombre d'instances d'alerte, ou si vous avez apporté d'autres modifications pour réduire le nombre d'instances d'alerte, vous pouvez l'enregistrer sans le modifier. Si elle peut être reprise, elle l'est. Si cela en cause un autreQuotaReachedError, vous ne pouvez pas l'enregistrer.

  • Lorsqu'une alerte est enregistrée et reprend son évaluation sans dépasser le quota d'alertes, l'erreur Quota atteint peut continuer à s'afficher dans la console Grafana pendant un certain temps (jusqu'à son intervalle d'évaluation). Cependant, l'évaluation des règles d'alerte démarre et des alertes sont envoyées si le seuil de la règle est atteint.

  • Pour plus de détails sur le quota d'alertes, ainsi que sur les autres quotas, consultezQuotas de service Amazon Managed Grafana.

Gestion de l'absence de données ou des cas d'erreur

Choisissez des options pour gérer le comportement des alertes en l'absence de données ou en cas d'erreur.

Les options permettant de ne traiter aucune donnée sont répertoriées dans le tableau suivant.

Option « Aucune donnée » Attitude

Aucune donnée

Créez une alerte DatasourceNoData avec le nom et l'UID de la règle d'alerte, ainsi que l'UID de la source de données qui n'a renvoyé aucune donnée sous forme d'étiquette.

Alerte

Définissez l'état de la règle d'alerte surAlerting.

OK

Définissez l'état de la règle d'alerte surNormal.

Les options de gestion des cas d'erreur sont répertoriées dans le tableau suivant.

Option d'erreur ou de délai d'expiration Attitude

Alerte

Définissez l'état de la règle d'alerte sur Alerting

OK

Définissez l'état de la règle d'alerte sur Normal

Erreur

Créez une alerte DatasourceError avec le nom et l'UID de la règle d'alerte, ainsi que l'UID de la source de données qui n'a renvoyé aucune donnée sous forme d'étiquette.