Types de contrôles de statut Travailler avec les contrôles de statut

Contrôles de statut pour vos instances

Avec la surveillance du statut des instances, vous pouvez rapidement déterminer si Amazon EC2 a détecté des problèmes susceptibles d’empêcher vos instances d’exécuter des applications. Amazon EC2 exécute des contrôles automatisés sur chaque instance EC2 en cours d’exécution pour identifier les problèmes matériels et logiciels. Vous pouvez afficher les résultats de ces contrôles de statut pour identifier des problèmes spécifiques et détectables. Les données d'état des événements complètent les informations déjà fournies par Amazon EC2 concernant l'état de chaque instance (par exemplerunning,stopping,) et les mesures d'utilisation surveillées par CloudWatch Amazon (utilisation du processeur, trafic réseau et activité du disque). pending

Les contrôles de statut sont exécutés toutes les minutes et chacun d’entre eux renvoie un statut de réussite ou d’échec. Si tous les contrôles réussissent, le statut global de l’instance est OK. Si un ou plusieurs contrôles échouent, le statut global de l’instance est dégradé. Les contrôles de statut sont intégrés à Amazon EC2. Ils ne peuvent donc pas être désactivés ou supprimés.

Lorsqu'une vérification de statut échoue, la CloudWatch métrique correspondante pour les vérifications de statut est incrémentée. Pour plus d’informations, consultez Métriques de contrôle de statut. Vous pouvez utiliser ces mesures pour créer des CloudWatch alarmes déclenchées en fonction du résultat des vérifications d'état. Par exemple, vous pouvez créer une alarme pour vous avertir si des contrôles de statut échouent sur une instance spécifique. Pour plus d’informations, consultez Créer et modifier des alarmes de vérification de statut.

Vous pouvez également créer une CloudWatch alarme Amazon qui surveille une instance Amazon EC2 et la récupère automatiquement si elle est altérée en raison d'un problème sous-jacent. Pour plus d’informations, consultez Récupération de votre instance.

Types de contrôles de statut

Il existe trois types de contrôles de statuts.

Contrôles de statut de système
Contrôles de statut des instances
Contrôles de statut de l’EBS attaché

Contrôles de statut de système

Les vérifications de l'état du système surveillent les AWS systèmes sur lesquels votre instance s'exécute. Ces contrôles détectent les problèmes sous-jacents liés à votre instance qui nécessitent une intervention de résolution d’ AWS . Lorsqu'une vérification de l'état du système échoue, vous pouvez choisir AWS d'attendre que le problème soit résolu ou de le résoudre vous-même. Pour les instances basées sur Amazon EBS, vous pouvez arrêter et démarrer l’instance vous-même, ce qui, dans la plupart des cas, entraîne la migration de l’instance vers un nouvel hôte. Pour les instances Linux basées sur le stockage d’instance, vous pouvez mettre l’instance hors service et la remplacer. Pour les instances Windows, le volume racine doit être un volume Amazon EBS ; le stockage d’instance n’est pas pris en charge pour le volume racine. Notez que les volumes de stockage d’instance sont éphémères et que toutes les données sont perdues lorsque l’instance est arrêtée.

Voici des exemples de problèmes pouvant entraîner l’échec des contrôles de statut :

Perte de connectivité réseau
Perte d’alimentation système
Problèmes logiciels sur un hôte physique
Problèmes matériels sur un hôte physique ayant un impact sur l’accessibilité du réseau

Si la vérification de l'état du système échoue, nous incrémentons la métrique StatusCheckFailed_System.

Instances nues

Si vous effectuez un redémarrage à partir du système d’exploitation sur une instance nue (bare metal), la vérification de l’état du système peut renvoyer temporairement un état d’échec. Lorsque l’instance devient disponible, la vérification de l’état du système doit renvoyer un état de succès.

Contrôles de statut des instances

Contrôles du statut de l’instance Surveillez la configuration logicielle et réseau de votre instance. Amazon EC2 vérifie l’état de l’instance en envoyant une demande de protocole de résolution d’adresse (ARP) à l’interface réseau (NIC). Ces contrôles détectent les problèmes nécessitant votre intervention pour les résoudre. Lorsqu’un contrôle de statut d’instance échoue, vous devez généralement résoudre le problème vous-même (par exemple, en redémarrant l’instance ou en effectuant des changements de configuration sur l’instance).

Voici des exemples de problèmes pouvant entraîner l’échec des contrôles d’instance :

Échec de contrôles de statut de système
Configuration de mise en réseau ou de démarrage incorrecte
Mémoire épuisée
Système de fichiers corrompu
Noyau incompatible

Si la vérification de l'état d'une instance échoue, nous incrémentons la métrique StatusCheckFailed_Instance.

Instances nues

Si vous effectuez un redémarrage à partir du système d’exploitation sur une instance nue (bare metal), la vérification de l’état de l’instance peut renvoyer temporairement un état d’échec. Lorsque l’instance devient disponible, la vérification de l’état de l’instance doit renvoyer un état de succès.

Contrôles de statut de l’EBS attaché

Les contrôles de statut de l’EBS attaché vérifient si les volumes Amazon EBS attachés à une instance sont accessibles et capables d’effectuer des opérations d’E/S. La métrique StatusCheckFailed_AttachedEBS est une valeur binaire qui indique une altération si un ou plusieurs volumes EBS attachés à l’instance ne sont pas en mesure d’effectuer les opérations d’E/S. Ces vérifications de statut détectent les problèmes sous-jacents liés au calcul ou à l’infrastructure Amazon EBS. Lorsque la métrique de vérification du statut EBS jointe échoue, vous pouvez soit attendre AWS que le problème soit résolu, soit prendre des mesures, telles que le remplacement des volumes concernés ou l'arrêt et le redémarrage de l'instance.

Vous trouverez ci-dessous des exemples de problèmes pouvant entraîner l’échec des contrôles de statut de l’EBS attaché :

Problèmes matériels ou logiciels sur les sous-systèmes de stockage sous-jacents aux volumes EBS
Problèmes matériels sur l’hôte physique ayant un impact sur l’accessibilité des volumes EBS
Problèmes de connectivité entre l’instance et les volumes EBS

Vous pouvez utiliser la métrique StatusCheckFailed_AttachedEBS pour améliorer la résilience de votre charge de travail. Vous pouvez utiliser cette métrique pour créer des CloudWatch alarmes Amazon déclenchées en fonction du résultat de la vérification de statut. Par exemple, vous pouvez basculer vers une instance secondaire ou une zone de disponibilité lorsque vous détectez un impact prolongé. Vous pouvez également surveiller les performances d'E/S de chaque volume connecté à l'aide des CloudWatch métriques EBS pour détecter et remplacer le volume endommagé. Si votre charge de travail ne génère aucune E/S vers des volumes EBS attachés à votre instance et que le contrôle de statut de l’EBS attaché indique un dysfonctionnement, vous pouvez arrêter et redémarrer l’instance pour résoudre les problèmes liés à l’hôte physique qui ont un impact sur l’accessibilité des volumes EBS. Pour plus d'informations, consultez les CloudWatch métriques Amazon pour Amazon EBS

Note

La métrique de contrôle de statut de l’EBS attaché n’est disponible que pour les instances Nitro.
Vous pouvez surveiller la métrique de vérification de statut EBS jointe en créant une CloudWatch alarme basée sur la StatusCheckFailed_AttachedEBS métrique. Vous ne pouvez pas afficher cette vérification d'état à l'aide de la describe-instance-status AWS CLI commande.

Travailler avec les contrôles de statut

Vous pouvez effectuer des contrôles de statut à l’aide de la console et des outils de ligne de commande, tels que AWS CLI.

Rubriques

Afficher les vérifications de statut
Créer et modifier des alarmes de vérification de statut

Afficher les vérifications de statut

Pour consulter les contrôles de statut, utilisez l'une des méthodes suivantes.

Console

Pour afficher les contrôles de statut

Ouvrez la console Amazon EC2 à l'adresse https://console.aws.amazon.com/ec2/.
Dans le panneau de navigation, choisissez instances.
Sur la page instances, la colonne Status check (Vérification de statut) répertorie le statut opérationnel de chaque instance.
Pour afficher le statut d’une instance spécifique, sélectionnez-la, puis choisissez l’onglet Statuts et alarmes.

Lorsqu’un contrôle de statut d’instance échoue, vous devez généralement résoudre le problème vous-même (par exemple, en redémarrant l’instance ou en effectuant des changements de configuration sur celle-ci). Pour résoudre vous-même des échecs de contrôle de statut de système ou d’instance, consultez Résolution des problèmes d’instances avec des contrôles de statut échoués.
Pour consulter les CloudWatch mesures relatives aux vérifications de statut, dans l'onglet État et alarmes, développez Métriques pour afficher les graphiques des mesures suivantes :
- Échec du contrôle de statut au niveau du système
- Échec du contrôle de statut au niveau de l’instance
Pour plus d’informations, consultez Métriques de contrôle de statut.

Command line

Vous pouvez consulter les vérifications d'état des instances en cours d'exécution à l'aide de la commande describe-instance-status(AWS CLI).

Pour afficher le statut de toutes les instances, utilisez la commande suivante :


aws ec2 describe-instance-status

Pour obtenir le statut de toutes les instances avec un statut d’instance impaired, utilisez la commande suivante.


aws ec2 describe-instance-status \
    --filters Name=instance-status.status,Values=impaired

Pour obtenir le statut d’une seule instance, utilisez la commande suivante.


aws ec2 describe-instance-status \
    --instance-ids i-1234567890abcdef0

Vous pouvez également utiliser les commandes suivantes :

Get-EC2InstanceStatus (AWS Tools for Windows PowerShell)
DescribeInstanceStatus(API de requête Amazon EC2)

Si vous avez une instance avec un statut d’échec (failed), consultez Résolution des problèmes d’instances avec des contrôles de statut échoués.

Créer et modifier des alarmes de vérification de statut

Vous pouvez utiliser les métriques de vérification de statut pour créer des CloudWatch alarmes afin de vous avertir en cas d'échec de la vérification de statut d'une instance.

Pour créer une alarme de contrôle de statut, utilisez l’une des méthodes suivantes :

Console

Utilisez la procédure suivante pour configurer une alarme qui vous envoie une notification par e-mail, ou arrête, met fin ou récupère une instance en cas d’échec du contrôle de statut de cette dernière.

Pour créer une alarme de contrôle de statut

Ouvrez la console Amazon EC2 à l’adresse https://console.aws.amazon.com/ec2/.
Dans le panneau de navigation, choisissez instances.
Sélectionnez l’instance, choisissez l’onglet Status Checks (Contrôles des statuts), puis choisissez Actions, Create status check alarm (Créer une alarme de contrôle de statut).
Sur la page Gérer les CloudWatch alarmes, sous Ajouter ou modifier une alarme, choisissez Créer une alarme.
Pour Alarm notification (Notification d’alarme), activez ou désactivez les notifications Amazon Simple Notiﬁcation Service (Amazon SNS). Sélectionnez une rubrique Amazon SNS existante ou entrez un nom pour créer une nouvelle rubrique.

Si vous avez ajouté une adresse e-mail à la liste de destinataires ou créé une nouvelle rubrique, Amazon SNS envoie un e-mail de confirmation d’abonnement à chaque nouvelle adresse. Chaque destinataire doit confirmer l’abonnement en choisissant le lien contenu dans ce message. Les notifications d’alerte sont envoyées uniquement aux adresses confirmées.
Activez Alarm action (Action d’alarme) pour spécifier une action à effectuer lorsque l’alarme est déclenchée. Sélectionnez l’action.
Pour Alarm thresholds (Seuils d’alarme), sélectionnez la métrique et les critères de l’alarme.

Vous pouvez laisser les paramètres par défaut pourRegrouper les échantillons par (moyenne) et Type de données à échantillonner (échec de la vérification de statut : soit), ou vous pouvez les modifier en fonction de vos besoins.

Dans Consecutive period (Période consécutive), définissez le nombre de périodes que vous souhaitez évaluer et, dans Period (Période), sélectionnez la période d’évaluation avant de déclencher l’alarme et d’envoyer un e-mail.
(Facultatif) Pour Exemple de données de métrique, choisissez Ajouter au tableau de bord.
Sélectionnez Créer.

Si vous devez apporter des modifications à une alarme de statut d’instance, vous pouvez modifier celle-ci.

Pour modifier une alarme de contrôle de statut

Ouvrez la console Amazon EC2 à l’adresse https://console.aws.amazon.com/ec2/.
Dans le panneau de navigation, sélectionnez Instances.
Sélectionnez l'instance et choisissez Actions, Surveillance, Gestion des CloudWatch alarmes.
Sur la page Gérer les CloudWatch alarmes, sous Ajouter ou modifier une alarme, choisissez Modifier une alarme.
Dans Search for alarm (Rechercher une alarme), sélectionnez l’alarme.
Une fois les modifications terminées, sélectionnez Update (Mettre à jour).

Command line

Dans l’exemple suivant, l’alarme publie une notification dans une rubrique SNS, arn:aws:sns:us-west-2:111122223333:my-sns-topic, lorsque l’instance échoue lors d’un contrôle de statut d’instance ou un contrôle de statut de système pour au moins deux périodes consécutives. La CloudWatch métrique utilisée estStatusCheckFailed.

Pour créer une alarme de vérification de statut à l'aide du AWS CLI

Sélectionnez une rubrique SNS existante ou créez-en une nouvelle. Pour plus d'informations, consultez la section Utilisation du service AWS CLI avec Amazon SNS dans le guide de l'AWS Command Line Interface utilisateur.
Utilisez la commande list-metrics suivante pour afficher les métriques Amazon disponibles pour Amazon CloudWatch EC2.
```
aws cloudwatch list-metrics --namespace AWS/EC2
```
Utilisez la put-metric-alarmcommande suivante pour créer l'alarme.
```
aws cloudwatch put-metric-alarm \
    --alarm-name StatusCheckFailed-Alarm-for-i-1234567890abcdef0 \
    --metric-name StatusCheckFailed \
    --namespace AWS/EC2 \
    --statistic Maximum \
    --dimensions Name=InstanceId,Value=i-1234567890abcdef0 \
    --unit Count \
    --period 300 \
    --evaluation-periods 2 \
    --threshold 1 \
    --comparison-operator GreaterThanOrEqualToThreshold \
    --alarm-actions arn:aws:sns:us-west-2:111122223333:my-sns-topic
```
La période est la période, en secondes, pendant laquelle CloudWatch les métriques Amazon sont collectées. Dans cet exemple, 300, qui correspond à 60 secondes multipliées par 5 minutes, est utilisé. La période d’évaluation est le nombre de périodes consécutives pour lesquelles la valeur de la métrique doit être comparée au seuil. Dans cet exemple, 2 est utilisé. Les actions d’alarme correspondent aux actions à exécuter lors du déclenchement de cette alarme. Dans cet exemple, l’alarme est configurée pour envoyer un e-mail à l’aide de Amazon SNS.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Surveiller le statut de vos instances

Événements de changement d’état