États d'alerte de métrique Évaluation d'une alerte Actions d'alerte Configuration de la manière dont les alertes traitent les données manquantes alertes haute résolution alertes sur les expressions mathématiques alertes basées sur les centiles et échantillons de données faibles Caractéristiques communes des CloudWatch alarmes

Utilisation des CloudWatch alarmes Amazon

Vous pouvez créer des alertes pour surveiller les métriques et envoyer des notifications ou apporter automatiquement des modifications aux ressources surveillées, lorsqu'un seuil est dépassé. Par exemple, vous pouvez surveiller l'utilisation du processeur ainsi que les lectures et écritures sur le disque de vos EC2 instances Amazon, puis utiliser ces données pour déterminer si vous devez lancer des instances supplémentaires pour gérer une charge accrue. Vous pouvez également utiliser ces données pour arrêter les instances sous-utilisées et réaliser des économies.

Vous pouvez créer des alarmes métriques et composites dans Amazon CloudWatch.

Une alarme métrique surveille une seule CloudWatch métrique ou le résultat d'une expression mathématique basée sur CloudWatch des métriques. L’alarme réalise une ou plusieurs actions en fonction de la valeur de la métrique ou de l’expression par rapport à un seuil sur un certain nombre de périodes. L'action peut consister à envoyer une notification à un sujet Amazon SNS, à exécuter une EC2 action Amazon ou une action Amazon EC2 Auto Scaling, à lancer une enquête dans le cadre d' CloudWatch enquêtes opérationnelles ou à créer un incident OpsItem ou dans Systems Manager.
Une alerte composite contient une expression de règle qui prend en compte les états d'alerte des autres alertes que vous avez créées. L'alerte composite passe à l'état ALARM uniquement si toutes les conditions de la règle sont remplies. Les alertes spécifiées dans l'expression de règle d'alerte composite peuvent inclure des alertes de métrique et d'autres alertes composites.

L'utilisation d'alertes composites peut réduire le bruit d'alerte. Vous pouvez créer plusieurs alertes de métrique, mais aussi créer une alerte composite et configurer des alertes uniquement pour l'alerte composite. Par exemple, un composite peut passer à l'état ALARM uniquement lorsque toutes les alertes de métrique sous-jacentes sont à l'état ALARM.

Les alarmes composites peuvent envoyer des notifications Amazon SNS lorsqu'elles changent d'état et peuvent créer des enquêtes, des Systems Manager OpsItems ou des incidents lorsqu'elles passent en état ALARM, mais elles ne peuvent pas effectuer d' EC2 actions ou d'actions Auto Scaling.

Note

Vous pouvez créer autant d'alarmes que vous le souhaitez dans votre AWS compte.

Vous pouvez ajouter des alertes aux tableaux de bord afin de pouvoir surveiller et recevoir des alertes concernant vos ressources et applications AWS dans plusieurs régions. Une fois que vous avez ajouté une alerte à un tableau de bord, elle devient grise lorsque son état est INSUFFICIENT_DATA, et elle devient rouge quand son état est ALARM. L'alerte n'a pas de couleur lorsqu'elle se trouve à l'état OK.

Vous pouvez également ajouter aux favoris les alarmes récemment visitées à l'aide de l'option Favoris et récents du volet de navigation de la CloudWatch console. L'option Favorites and recents (Favoris et récents) se compose de deux colonnes pour vos alertes favorites et les alertes que vous avez récemment consultées.

Une alerte appelle des actions uniquement lorsque l'état de l'alerte change. L'exception concerne les alertes avec des actions Auto Scaling. Dans le cas d'actions Auto Scaling, l'alerte continue d'appeler l'action une fois par minute pendant laquelle elle reste dans le nouvel état.

Une alerte peut surveiller une métrique dans le même compte. Si vous avez activé la fonctionnalité multi-comptes sur votre CloudWatch console, vous pouvez également créer des alarmes qui surveillent les statistiques d'autres AWS comptes. La création d'alertes composites entre comptes n'est pas prise en charge. La création d'alertes croisées qui utilisent des expressions mathématiques est prise en charge, sauf que les fonctions ANOMALY_DETECTION_BAND, INSIGHT_RULE, et SERVICE_QUOTA ne sont pas prises en charge pour les alertes de compte croisé.

Note

CloudWatch ne teste ni ne valide les actions que vous spécifiez, pas plus qu'il ne détecte aucune erreur Amazon EC2 Auto Scaling ou Amazon SNS résultant d'une tentative d'invoquer des actions inexistantes. Vérifiez que vos actions d'alerte existent.

États d'alerte de métrique

Une alerte de métrique peut avoir les états suivants :

OK – La métrique ou l'expression se trouve dans le seuil défini.
ALARM – La métrique ou l'expression se trouve à l'extérieur du seuil défini.
INSUFFICIENT_DATA – L'alerte vient de commencer, la métrique n'est pas disponible, ou la quantité de données n'est pas suffisante pour permettre à la métrique de déterminer le statut de l'alerte.

Évaluation d'une alerte

Lorsque vous créez une alarme, vous spécifiez trois paramètres à activer pour évaluer CloudWatch à quel moment il convient de modifier l'état de l'alarme :

La Période est la durée nécessaire pour évaluer la métrique ou l'expression afin de créer chaque point de données pour une alerte. Elle est exprimée en secondes.
Evaluation Periods (Périodes d'évaluation) est le nombre de périodes, ou de points de données, les plus récents à évaluer pour déterminer l'état de l'alerte.
Datapoints to Alarm (Points de données avant l'alerte) est le nombre de points de données pendant les périodes d'évaluation qui doit être dépassé pour que l'alerte passe à l'état ALARM. Les points de données au-delà du seuil n'ont pas besoin d'être consécutifs, mais ils doivent simplement tous correspondre au dernier nombre de points de données correspondant à la valeur Evaluation Period (Période d'évaluation).

Pour toute période d'une minute ou plus, une alerte est évaluée toutes les minutes et l'évaluation est basée sur la fenêtre de temps définie par la Période et les Périodes d'évaluation. Par exemple, si la Période est de 5 minutes (300 secondes) et que les Périodes d'évaluation sont de 1, alors à la fin de la cinquième minute, l'alerte est évaluée en fonction des données des minutes 1 à 5. Ensuite, à la fin de la minute 6, l'alerte est évaluée en fonction des données des minutes 2 à 6.

Si la durée de l'alarme est de 10 secondes, 20 secondes ou 30 secondes, l'alarme est évaluée toutes les 10 secondes.

Si le nombre de périodes d'évaluation multiplié par la durée de chaque période d'évaluation dépasse un jour, l'alarme est évaluée une fois par heure. Pour plus de détails sur la façon dont ces alarmes de plusieurs jours sont évaluées, consultez l'exemple à la fin de cette section.

Dans la figure suivante, le seuil d'alerte d'une alerte de métrique est défini sur trois unités. Evaluation Period (Période d'évaluation) et Datapoints to Alarm (Points de données à l'alerte)sont définis sur 3. Cela signifie que lorsque les trois points de données des trois périodes consécutives les plus récentes sont au-dessus du seuil, l'alerte passe à l'état ALARM. Dans le schéma, cela se produit entre la troisième et la cinquième période. À la sixième période, la valeur repasse sous le seuil. L'une des périodes évaluées n'est donc pas en dépassement et l'état de l'alerte revient à l'état OK. Au cours de la neuvième période, le seuil est dépassé à nouveau, mais pendant une seule période. Par conséquent, le statut de l'alerte reste OK.

alerte de déclenchement du seuil d'alerte

Lorsque vous configurez différentes valeurs pour Evaluation Periods (Périodes d'évaluation) et Datapoints to Alarm (Points de données avant l'alerte), vous définissez une alerte « M sur N ». Datapoints à Alarm (Points de données avant l'alerte) est (« M ») et Evaluation Periods (Périodes d'évaluation) est (« N »). L'intervalle d'évaluation correspond au nombre de périodes d'évaluation multiplié par la durée de la période. Par exemple, si vous configurez 4 points de données sur 5 avec une période de 1 minute, l'intervalle d'évaluation est de 5 minutes. Si vous configurez 3 points de données sur 3 avec une période de 10 minutes, l'intervalle d'évaluation est de 30 minutes.

Note

Si des points de données sont manquants peu après la création d'une alarme et que la métrique a été signalée CloudWatch avant que vous ne créiez l'alarme, CloudWatch récupère les points de données les plus récents avant la création de l'alarme lors de l'évaluation de l'alarme.

Exemple d'évaluation d'une alarme de plusieurs jours

Une alarme est une alarme de plusieurs jours si le nombre de périodes d'évaluation multiplié par la durée de chaque période d'évaluation dépasse un jour. Les alarmes qui durent plusieurs jours sont évaluées une fois par heure. Lorsque des alarmes de plusieurs jours sont évaluées, seules les mesures CloudWatch prises en compte jusqu'à l'heure en cours à la minute 00 sont prises en compte lors de l'évaluation.

Prenons l'exemple d'une alarme qui surveille une tâche exécutée tous les 3 jours à 10 heures.

À 10 h 02, la tâche échoue
À 10 h 03, l'alarme est évaluée et reste active, car l'évaluation ne OK prend en compte les données que jusqu'à 10 heures.
À 11 h 03, l'alarme prend en compte les données jusqu'à 11 h 00 et passe à l'état. ALARM
À 11 h 43, vous corrigez l'erreur et la tâche s'exécute désormais correctement.
À 12 h 03, l'alarme réévalue, détecte la réussite de la tâche et revient à l'état normal. OK

Actions d'alerte

Vous pouvez spécifier les actions d'une alerte lorsqu'elle change d'état entre les états OK, ALARM et INSUFFICIENT_DATA.

La plupart des actions peuvent être définies pour la transition vers chacun des trois états. À l'exception des actions Auto Scaling, elles se produisent uniquement lors des transitions d'état et ne sont pas exécutées à nouveau si la condition persiste pendant plusieurs heures ou jours. Vous pouvez utiliser le fait que plusieurs actions sont autorisées pour qu'une alerte envoie un e-mail lorsqu'un seuil est dépassé, puis un autre lorsque la condition de dépassement prend fin. Cela vous permet de vérifier que vos actions de mise à l'échelle ou de récupération sont déclenchées au moment prévu et fonctionnent comme vous le souhaitez.

Les actions d’alarme suivantes sont prises en charge.

Notifier un ou plusieurs abonnés à l’aide d’une rubrique Amazon Simple Notification Service. Les abonnés peuvent aussi bien être des applications que des personnes. Pour plus d'informations sur Amazon SNS, consultez Qu'est-ce qu'Amazon SNS ?.
Invoquer une fonction Lambda. C’est le moyen le plus simple d’automatiser des actions personnalisées en cas de modification de l’état des alarmes.
Les alarmes basées sur EC2 des métriques peuvent également effectuer EC2 des actions, telles que l'arrêt, la résiliation, le redémarrage ou la restauration d'une instance. EC2 Pour de plus amples informations, veuillez consulter Créez des alarmes pour arrêter, mettre fin, redémarrer ou récupérer une EC2 instance.
Les alarmes peuvent également effectuer des actions pour mettre à l’échelle un groupe Auto Scaling. Pour plus d'informations, consultez Step and Simple Scaling policies for Amazon EC2 Auto Scaling.
Les alarmes peuvent être OpsItems créées dans le Systems Manager Ops Center ou créer des incidents dans AWS Systems Manager Incident Manager. Ces actions ne sont exécutées que lorsque l'alerte passe à l'état ALARM. Pour plus d'informations, consultez Configuration CloudWatch pour créer à OpsItems partir d'alarmes et Création d'incidents.
Une alarme peut lancer une enquête lorsqu'elle passe à l'état ALARM. Pour plus d'informations sur CloudWatch les enquêtes, voirCloudWatch enquêtes.

Les alarmes émettent également des événements Amazon EventBridge lorsqu'elles changent d'état, et vous pouvez les configurer Amazon EventBridge pour déclencher d'autres actions pour ces changements d'état. Pour plus d'informations, veuillez consulter Présentation de Amazon EventBridge.

Configuration de la façon dont les CloudWatch alarmes traitent les données manquantes

Parfois, tous les points de données attendus pour une métrique ne sont pas signalés CloudWatch. Cela peut par exemple se produire lorsqu'une connexion est perdue, lorsqu'un serveur tombe en panne ou lorsqu'une métrique, de par sa conception, rapporte les données de façon intermittente uniquement.

CloudWatch vous permet de spécifier comment traiter les points de données manquants lors de l'évaluation d'une alarme. Cela vous aide à configurer votre alerte afin qu'elle passe à l'état ALARM uniquement lorsque cela s'avère approprié pour le type de données surveillées. Vous pouvez éviter les faux positifs lorsque les données manquantes n'indiquent pas de problème.

De la même manière que chaque alarme est toujours dans l'un des trois états suivants, chaque point de données spécifique signalé CloudWatch appartient à l'une des trois catégories suivantes :

Non dépassé (seuil respecté)
Dépassé (au-delà du seuil)
Manquant

Pour chaque alarme, vous pouvez spécifier CloudWatch de traiter les points de données manquants comme suit :

notBreaching : les points de données manquants sont traités comme étant corrects et dans les limites du seuil
breaching : les points de données manquants sont traités comme étant incorrects au-delà du seuil
ignore : l'état de l'alerte actuel est conservé
missing : si tous les points de données de la plage d'évaluation des alertes sont manquants, l'alerte passe à INSUFFICIENT_DATA.

Le meilleur choix dépend du type de métrique et de l'objectif de l'alarme. Par exemple, si vous créez une alarme d'annulation d'application à l'aide d'une métrique qui rapporte des données en permanence, vous souhaiterez peut-être considérer les points de données manquants comme une violation, car cela peut indiquer un problème. En revanche, dans le cas d'une métrique qui génère des points de données uniquement en cas d'erreur, par exemple la métrique ThrottledRequests dans Amazon DynamoDB, vous traiteriez plutôt les données manquantes comme étant notBreaching. Le comportement par défaut est missing.

Important

Les alarmes configurées sur EC2 les métriques Amazon peuvent passer temporairement à l'état INSUSUFFISENT_DATA s'il manque des points de données métriques. Cela est rare, mais cela peut se produire lorsque le reporting des métriques est interrompu, même lorsque l' EC2 instance Amazon est saine. Pour les alarmes associées aux EC2 métriques Amazon configurées pour effectuer des actions d'arrêt, d'arrêt, de redémarrage ou de restauration, nous vous recommandons de configurer ces alarmes de manière à traiter les données manquantes comme missing des données manquantes et à ce que ces alarmes ne se déclenchent que lorsqu'elles sont en état ALARM.

Choisir la meilleure option pour votre alerte permet d'éviter des changements de condition d'alerte superflus et trompeurs, mais également de fournir une indication plus précise de l'état du système.

Important

Les alertes qui évaluent les métriques dans l'espace de noms AWS/DynamoDB ignorent toujours les données manquantes, même si vous choisissez une option différente pour le traitement des données manquantes par l'alerte. Lorsqu'une métrique AWS/DynamoDB contient des données manquantes, les alertes qui évaluent cette métrique restent dans leur état actuel.

Évaluation de l'état de l'alerte lorsqu'il manque des données

Chaque fois qu'une alarme évalue s'il faut changer d'état, CloudWatch tente de récupérer un nombre de points de données supérieur au nombre spécifié comme périodes d'évaluation. Le nombre de points de données exact qu'il tente de récupérer dépend de la longueur de la période d'alerte et du fait qu'elle est ou non basée sur une métrique avec une résolution standard ou une haute résolution. La période des points de données qu'il tente de récupérer est la plage d'évaluation.

Une fois ces CloudWatch points de données récupérés, voici ce qui se passe :

S'il ne manque aucun point de données dans la plage d'évaluation, CloudWatch évalue l'alarme en fonction des points de données les plus récents collectés. Le nombre de points de données évalués est égal aux Evaluation Periods (Périodes d'évaluation) pour l'alerte. Les points de données supplémentaires situés plus loin dans la plage d'évaluation ne sont pas nécessaires et sont ignorés.
Si certains points de données de la plage d'évaluation sont manquants, mais que le nombre total de points de données existants qui ont été extraits avec succès de la plage d'évaluation est égal ou supérieur aux périodes d'évaluation de l'alarme, CloudWatch évalue l'état de l'alarme en fonction des points de données réels les plus récents qui ont été récupérés avec succès, y compris les points de données supplémentaires nécessaires situés plus loin dans la plage d'évaluation. Dans ce cas, la valeur que vous avez définie pour traiter les données manquantes n'est pas nécessaire et est ignorée.
Si certains points de données de la plage d'évaluation sont manquants et que le nombre de points de données réels récupérés est inférieur au nombre de périodes d'évaluation de l'alarme, complétez CloudWatch les points de données manquants avec le résultat que vous avez spécifié sur la manière de traiter les données manquantes, puis évalue l'alarme. Cependant, tous les points de données réels de la plage d'évaluation sont inclus dans l'évaluation. CloudWatch n'utilise les points de données manquants que le moins de fois possible.

Note

Un cas particulier de ce comportement est que les CloudWatch alarmes peuvent réévaluer à plusieurs reprises le dernier ensemble de points de données pendant un certain temps après l'arrêt du flux de la métrique. Cette réévaluation peut entraîner l'alerte à changer d'état et à réexécuter des actions, si le changement d'état est survenu immédiatement avant que le flux de la métrique ne soit interrompu. Pour atténuer ce comportement, utilisez des périodes plus courtes.

Les tableaux suivants illustrent des exemples du comportement d'évaluation de l'alerte. Dans le premier tableau, les points de données relatifs aux périodes d'alarme et d'évaluation sont tous deux égaux à 3. CloudWatch récupère les 5 points de données les plus récents lors de l'évaluation de l'alarme, au cas où certains des 3 points de données les plus récents seraient manquants. 5 est la plage d'évaluation de l'alarme.

La colonne 1 montre les 5 points de données les plus récents, car la plage d'évaluation est 5. Ces points de données sont affichés avec le point de données le plus récent sur la droite. 0 est un point de données en-deçà du seuil, X est un point de données au-delà du seuil et - est un point de données manquant.

La deuxième colonne indique combien des 3 points de données nécessaires sont absents. Même si les 5 points de données les plus récents sont évalués, seuls 3 d'entre eux (le paramètre pour les Périodes d'évaluation) sont nécessaires pour évaluer l'état de l'alerte. Le nombre de points de données dans la deuxième colonne est le nombre de points de données qui doivent être « renseignés » à l'aide du paramètre pour la façon dont les données manquantes sont traitées.

Dans les colonnes 3 à 6, les en-têtes de colonne sont les valeurs possibles pour la façon de traiter les données manquantes. Les lignes de ces colonnes indiquent l'état d'alerte défini pour chacune de ces méthodes possibles de traitement des données manquantes.

Points de données	Nombre de points de données qui doivent être remplis	MANQUANT	IGNORER	AU-DELÀ DU SEUIL	EN-DEÇÀ DU SEUIL
0 - X - X	0	`OK`	`OK`	`OK`	`OK`
- - - - 0	2	`OK`	`OK`	`OK`	`OK`
- - - - -	3	`INSUFFICIENT_DATA`	Conserver l'état actuel	`ALARM`	`OK`
0 X X - X	0	`ALARM`	`ALARM`	`ALARM`	`ALARM`
- - X - -	2	`ALARM`	Conserver l'état actuel	`ALARM`	`OK`

Dans la deuxième ligne du tableau précédent, l'alerte reste OK, même si les données manquantes sont traitées comme au-delà du seuil, car le seul point de données existant n'est pas au-delà du seuil. Cette valeur est évaluée avec deux points de données manquants qui sont traités comme au-delà du seuil. Lors de l'évaluation suivante de cette alerte, si les données sont toujours manquantes, l'état deviendra ALARM, étant donné que ce point de données en-deçà du seuil ne fera plus parti de la plage d'évaluation.

La troisième ligne, où les cinq points de données les plus récents sont manquants, illustre comment les différents paramètres de traitement des données manquantes affectent l'état d'alerte. Si les points de données manquants sont considérés comme une violation, l'alerte passe en état alerte, tandis que si elles sont considérées comme ne pas entrer en violation, l'alerte passe en état OK. Si les points de données manquants sont ignorés, l'alerte conserve l'état actuel qu'elle avait avant les points de données manquants. Et si les points de données manquants sont simplement considérés comme manquants, alors l'alerte n'a pas assez de données réelles récentes pour faire une évaluation, et passe dans INSUFFICIENT_DATA.

Dans la quatrième rangée, l'alerte passe à l'état ALARM dans tous les cas, car les trois points de données les plus récents sont en violation, et les Périodes d'évaluation ainsi que les Points de données à l'alerte de l'alerte sont tous deux réglés sur 3. Dans ce cas, le point de données manquant est ignoré et le paramètre relatif à l'évaluation des données manquantes n'est pas requis, car il y a 3 points de données réels à évaluer.

La ligne 5 représente un cas spécial d'évaluation d'alerte appelé état d'alerte prématurée. Pour plus d'informations, consultez Éviter les transitions prématurées vers l'état d'alerte.

Dans le tableau suivant, la valeur de Période est à nouveau définie sur 5 minutes et celle de Points de données avant l'alerte est seulement 2 alors que celle de Périodes d'évaluation est de 3. Il s'agit d'une alerte 2 sur 3, M sur N.

La plage d'évaluation est de 5. Il s'agit du nombre maximal de points de données récents qui sont récupérés et peuvent être utilisés au cas où certains points de données seraient manquants.

Points de données	Nbre de points de données manquants	MANQUANT	IGNORER	AU-DELÀ DU SEUIL	EN-DEÇÀ DU SEUIL
0 - X - X	0	`ALARM`	`ALARM`	`ALARM`	`ALARM`
0 0 X 0 X	0	`ALARM`	`ALARM`	`ALARM`	`ALARM`
0 - X - -	1	`OK`	`OK`	`ALARM`	`OK`
- - - - 0	2	`OK`	`OK`	`ALARM`	`OK`
- - - - X	2	`ALARM`	Conserver l'état actuel	`ALARM`	`OK`

Dans les lignes 1 et 2, l'alerte passe toujours à l'état ALARM, car 2 des 3 points de données les plus récents sont en train de franchir. Dans la ligne 2, les deux points de données les plus anciens de la plage d'évaluation ne sont pas nécessaires, car aucun des 3 points de données les plus récents n'est manquant, de sorte que ces deux points de données plus anciens sont ignorés.

Dans les lignes 3 et 4, l'alerte passe à l'état ALARM uniquement si les données manquantes sont traitées comme des violations, auquel cas les deux points de données manquants les plus récents sont tous deux traités comme des violations. Dans la ligne 4, ces deux points de données manquants qui sont traités comme étant au-delà du seuil fournissent les deux points de données au-delà du seuil pour déclencher l'état ALARM.

La ligne 5 représente un cas spécial d'évaluation d'alerte appelé état d'alerte prématurée. Pour plus d'informations, consultez la section suivante.

Éviter les transitions prématurées vers l'état d'alerte

CloudWatch l'évaluation des alarmes inclut une logique visant à éviter les fausses alarmes, lorsque l'alarme passe prématurément en état d'alarme lorsque les données sont intermittentes. L'exemple illustré à la ligne 5 des tableaux de la section précédente illustre cette logique. Dans ces lignes, et dans les exemples suivants, la propriété Evaluation Periods (Périodes d'évaluation)est 3 et la plage d'évaluation est de 5 points de données. Datapoints to Alarm (Points de données à l'alerte) est défini sur 3, sauf pour l'exemple M sur N, où Datapoints to Alarm (Points de données à l'alerte) est défini sur 2.

Supposons que les données les plus récentes d'une alerte soient - - - - X, avec quatre points de données manquants, puis un point de données de violation comme point de données le plus récent. Étant donné que le point de données suivant peut être sans violation, l'alerte ne passe pas immédiatement dans l'état ALARM lorsque les données sont - - - - X ou - - - X - et Datapoints to Alarm (Points de données à l'alerte) est défini sur 3. De cette façon, les faux positifs sont évités lorsque le point de données suivant n'est pas en violation et que les données sont - - - X O ou - - X - O.

Toutefois, si les derniers points de données sont - - X - -, l'alerte passe en état alerte même si les points de données manquants sont considérés comme manquants. En effet, les alertes sont conçues pour toujours passer à l'état ALARM lorsque le plus ancien point de données de violation disponible pendant les Evaluation Periods (Périodes d'évaluation) est au moins aussi ancien que la valeur des Datapoint to Alarm (Points de données à alerter), et que tous les autres points de données plus récents sont en violation ou manquants. Dans ce cas, l'alerte passe en état ALARM même si le nombre total de points de données disponibles est inférieur à M (Datapoints to Alarm (Points de données à l'alerte)).

Cette logique d'alerte s'applique également aux alertes M sur N. Si le point de données de violation le plus ancien au cours de la plage d'évaluation est au moins aussi ancien que la valeur de Datapoints to Alarm (Points de données à l'alerte), et que tous les points de données les plus récents sont soit en violation ou manquants, l'alerte passe en état ALARM quelle que soit la valeur de M (Datapoints to Alarm (Points de données à l'alerte)).

Comment les données partielles d'une requête Metrics Insights sont évaluées

Si la requête Metrics Insights utilisée pour l'alarme correspond à plus de 10 000 métriques, l'alarme est évaluée sur la base des 10 000 premières métriques trouvées par la requête. Cela signifie que l'alarme est évaluée sur des données partielles.

Vous pouvez utiliser les méthodes suivantes pour savoir si une alarme Metrics Insights est en train d'évaluer son état d'alarme sur la base de données partielles :

Dans la console, si vous choisissez une alarme pour voir la page Details (Détails), le message Evaluation warning: Not evaluating all data (Avertissement d'évaluation : toutes les données ne sont pas évaluées) apparaît sur cette page.
La valeur s'affiche PARTIAL_DATA dans le EvaluationState champ lorsque vous utilisez la AWS CLI commande describe-alarm ou l' DescribeAlarmsAPI.

Les alarmes publient également des événements sur Amazon EventBridge lorsqu'elles passent à l'état de données partielles. Vous pouvez donc créer une EventBridge règle pour surveiller ces événements. Dans ces cas, le champ evaluationState possède la valeur PARTIAL_DATA. Voici un exemple.


{
    "version": "0",
    "id": "12345678-3bf9-6a09-dc46-12345EXAMPLE",
    "detail-type": "CloudWatch Alarm State Change",
    "source": "aws.cloudwatch",
    "account": "123456789012",
    "time": "2022-11-08T11:26:05Z",
    "region": "us-east-1",
    "resources": [
        "arn:aws:cloudwatch:us-east-1:123456789012:alarm:my-alarm-name"
    ],
    "detail": {
        "alarmName": "my-alarm-name",
        "state": {
            "value": "ALARM",
            "reason": "Threshold Crossed: 3 out of the last 3 datapoints [20000.0 (08/11/22 11:25:00), 20000.0 (08/11/22 11:24:00), 20000.0 (08/11/22 11:23:00)] were greater than the threshold (0.0) (minimum 1 datapoint for OK -> ALARM transition).",
            "reasonData": "{\"version\":\"1.0\",\"queryDate\":\"2022-11-08T11:26:05.399+0000\",\"startDate\":\"2022-11-08T11:23:00.000+0000\",\"period\":60,\"recentDatapoints\":[20000.0,20000.0,20000.0],\"threshold\":0.0,\"evaluatedDatapoints\":[{\"timestamp\":\"2022-11-08T11:25:00.000+0000\",\"value\":20000.0}]}",
            "timestamp": "2022-11-08T11:26:05.401+0000",
            "evaluationState": "PARTIAL_DATA"
        },
        "previousState": {
            "value": "INSUFFICIENT_DATA",
            "reason": "Unchecked: Initial alarm creation",
            "timestamp": "2022-11-08T11:25:51.227+0000"
        },
        "configuration": {
            "metrics": [
                {
                    "id": "m2",
                    "expression": "SELECT SUM(PartialDataTestMetric) FROM partial_data_test",
                    "returnData": true,
                    "period": 60
                }
            ]
        }
    }
}

Si la requête pour l'alarme comprend une instruction GROUP BY qui renvoie initialement plus de 500 séries temporelles, l'alarme est évaluée sur la base des 500 premières séries temporelles que la requête trouve. Cependant, si vous utilisez une clause ORDER BY, toutes les séries temporelles trouvées par la requête sont triées, et les 500 qui ont les valeurs les plus élevées ou les plus basses selon votre clause ORDER BY sont utilisées pour évaluer l'alarme.

alertes haute résolution

Si vous réglez une alarme sur une métrique haute résolution, vous pouvez spécifier une alarme haute résolution d'une durée de 10 secondes, 20 secondes ou 30 secondes, ou vous pouvez définir une alarme normale avec une période d'un multiple quelconque de 60 secondes. Les frais engendrés par des alertes haute résolution sont plus élevés. Pour plus d'informations sur les métriques haute résolution, consultez Publication de métriques personnalisées.

alertes sur les expressions mathématiques

Vous pouvez définir une alarme en fonction du résultat d'une expression mathématique basée sur une ou plusieurs métriques CloudWatch. Une expression mathématique utilisée pour une alerte peut inclure jusqu'à 10 métriques. Chaque métrique doit utiliser la même période.

Pour une alarme basée sur une expression mathématique, vous pouvez spécifier la manière dont vous souhaitez CloudWatch traiter les points de données manquants. Dans ce cas, un point de données est considéré comme manquant si l'expression mathématique ne renvoie aucune valeur pour ce point de données.

Les alarmes basées sur des expressions mathématiques ne peuvent pas effectuer d' EC2 actions Amazon.

Pour en savoir plus sur les expressions mathématiques et la syntaxe de métrique, consultez Utilisation d'expressions mathématiques avec des CloudWatch métriques.

CloudWatch Alarmes basées sur les percentiles et échantillons de données faibles

Lorsque vous définissez un centile comme statistique d'une alerte, vous pouvez préciser quelle action réaliser lorsque les données sont insuffisantes pour obtenir une estimation statistique de qualité. Vous pouvez décider que l'alerte doit évaluer la statistique quoi qu'il arrive et éventuellement qu'elle change d'état. Vous pouvez également décider que l'alerte doit ignorer la métrique si la taille de l'échantillon est réduite et attendre pour l'évaluer que les données soient en quantité suffisante pour être significatives statistiquement.

Pour les centiles entre 0,5 (inclusif) et 1,00 (exclusif), ce paramètre est utilisé lorsque moins de 10/(1-centile) points de données sont présents lors de la période d'évaluation. Par exemple, ce paramètre serait utilisé si moins de 1 000 échantillons étaient présents pour une alerte dans un centile p99. Pour les centiles entre 0 et 0,5 (exclusif), ce paramètre est utilisé lorsque moins de 10/centile points de données sont présents.

Caractéristiques communes des CloudWatch alarmes

Les fonctionnalités suivantes s'appliquent à toutes les CloudWatch alarmes :

Il n'existe pas de limite au nombre d'alertes que vous pouvez créer. Pour créer ou mettre à jour une alarme, vous devez utiliser la CloudWatch console, l'action PutMetricAlarmAPI ou la put-metric-alarmcommande du AWS CLI.
Les noms des alertes ne doivent contenir que des caractères UTF-8 et ne peuvent pas contenir de caractères de contrôle ASCII.
Vous pouvez répertorier une ou toutes les alarmes actuellement configurées, ainsi que toutes les alarmes dans un état particulier à l'aide de la CloudWatch console, de l'action DescribeAlarmsAPI ou de la commande describe-alarm dans le. AWS CLI
Vous pouvez désactiver et activer les actions d'alarme à l'aide des actions DisableAlarmActionset de l'EnableAlarmActionsAPI ou disable-alarm-actionsdes enable-alarm-actionscommandes et du AWS CLI.
Vous pouvez tester une alarme en la réglant sur n'importe quel état à l'aide de l'action SetAlarmStateAPI ou de la set-alarm-statecommande du AWS CLI. Ce changement de statut temporaire ne dure que jusqu'à la comparaison d'alerte suivante.
Vous pouvez créer une alerte pour une métrique personnalisée avant de créer cette dernière. Pour que l'alerte soit valide, vous devez inclure toutes les dimensions pour la métrique personnalisée en plus de l'espace de nom et du nom de la métrique dans la définition de l'alerte. Pour ce faire, vous pouvez utiliser l'action PutMetricAlarmAPI ou la put-metric-alarmcommande du AWS CLI.
Vous pouvez consulter l'historique d'une alarme à l'aide de la CloudWatch console, de l'action de l'DescribeAlarmHistoryAPI ou de la describe-alarm-historycommande du AWS CLI. CloudWatch conserve l'historique des alarmes pendant 30 jours. Chaque transition de statut est marquée par un horodatage unique. Dans de rares cas, votre historique peut afficher plus d'une notification pour un changement de statut. L'horodatage vous permet de confirmer les modifications de statut uniques.
Vous pouvez ajouter des alarmes à vos favoris à l'aide de l'option Favoris et récents dans le volet de navigation de la CloudWatch console en passant le curseur sur l'alarme que vous souhaitez ajouter aux favoris et en choisissant le symbole en forme d'étoile à côté de celle-ci.
Les alarmes sont soumises à un quota de période d'évaluation. La période d'évaluation est calculée en multipliant la période d'alarme par le nombre de périodes d'évaluation utilisées.
- La période d'évaluation maximale est de sept jours pour les alarmes d'une durée minimale d'une heure (3 600 secondes).
- La période d'évaluation maximale est d'un jour pour les alarmes dont la durée est plus courte.
- La période d'évaluation maximale est d'un jour pour les alarmes qui utilisent la source de données Lambda personnalisée.

Note

Certaines AWS ressources n'envoient pas de données métriques CloudWatch sous certaines conditions.

Par exemple, Amazon EBS peut ne pas envoyer de données métriques pour un volume disponible qui n'est pas attaché à une EC2 instance Amazon, car aucune activité métrique ne doit être surveillée pour ce volume. Si vous avez une alerte définie pour ce type de métrique, vous pouvez remarquer que son état passe à INSUFFICIENT_DATA. Cela peut indiquer que votre ressource est inactive et ne signifie pas nécessairement la présence d'un problème. Vous pouvez spécifier la façon dont chaque alerte traite les données manquantes. Pour de plus amples informations, veuillez consulter Configuration de la façon dont les CloudWatch alarmes traitent les données manquantes.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Publication de métriques personnalisées

Recommandations relatives aux alarmes pour les AWS services