REL11-BP01 Surveiller tous les composants de la charge de travail pour détecter les défaillances

Surveillez en continu l’état de votre charge de travail afin que vous et vos systèmes automatisés ayez connaissance des dégradations ou des défaillances dès qu’elles se produisent. Surveillez les indicateurs clés de performance (KPI) en fonction de la valeur commerciale.

Tous les mécanismes de récupération et de réparation doivent commencer par la capacité à détecter rapidement les problèmes. Les défaillances techniques doivent être détectées au préalable pour être résolues. Cependant, la disponibilité repose sur la capacité de votre charge de travail à fournir une valeur commerciale. Il doit donc s’agir d’indicateurs clés de performance (KPI) de votre stratégie de détection et de correction.

Résultat escompté : les composants essentiels d’une charge de travail sont surveillés de manière indépendante afin de détecter les défaillances et de les signaler au moment et à l’emplacement où elles se produisent.

Anti-modèles courants :

Aucune alarme n’a été configurée. Les pannes se produisent donc sans notification.
Des alarmes existent, mais les seuils ne laissent pas assez de temps pour réagir.
Les métriques ne sont pas collectées à une fréquence suffisante pour atteindre l’objectif de délai de reprise (RTO).
Seules les interfaces de la charge de travail axées directement sur le client sont activement surveillées.
Collecte uniquement des métriques techniques et non des métriques de fonction commerciale.
Aucune métrique ne mesure l’expérience utilisateur de la charge de travail.
Trop de contrôleurs sont créés.

Avantages liés au respect de cette bonne pratique : la surveillance appropriée à tous les niveaux vous permet de raccourcir le délai de reprise en réduisant le temps de détection.

Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : élévé

Directives d’implémentation

Identifiez toutes les charges de travail qui seront examinées à des fins de surveillance. Une fois que vous avez identifié tous les composants de la charge de travail à surveiller, déterminez l’intervalle de surveillance. Cet intervalle a un impact direct sur la rapidité avec laquelle la restauration peut être initiée en fonction du temps nécessaire pour détecter une panne. Le délai moyen de détection (MTTD) est le délai entre le moment où une panne survient et le moment où les opérations de réparation commencent. La liste des services doit être longue et complète.

La surveillance doit couvrir toutes les couches de la pile d’applications, y compris l’application, la plateforme, l’infrastructure et le réseau.

Votre stratégie de surveillance doit tenir compte de l’impact des défaillances grises. Pour en savoir plus sur les défaillances grises, consultez la section Défaillances grises dans le livre blanc Modèles de résilience Multi-AZ avancée.

Étapes d’implémentation

Votre intervalle de surveillance dépend de la vitesse à laquelle vous devez effectuer la récupération. Votre délai de reprise dépend du temps nécessaire à la récupération. Vous devez donc déterminer la fréquence de collecte en tenant compte de cette durée et de votre objectif de délai de reprise (RTO).
Configurez la surveillance détaillée des composants et des services gérés.
- Déterminez la nécessité d’une surveillance détaillée pour les instances EC2 et Auto Scaling. La surveillance détaillée fournit des métriques à intervalle d’une minute, et la surveillance par défaut fournit des métriques à intervalle de cinq minutes.
- Déterminez la nécessité de la surveillance améliorée pour RDS. La surveillance améliorée utilise un agent sur les instances RDS pour obtenir des informations utiles sur différents processus ou fils.
- Déterminez les exigences de surveillance des composants sans serveur critiques pour Lambda, API Gateway, Amazon EKS, Amazon ECS et tous les types d’équilibreurs de charge.
- Déterminez les exigences de surveillance des composants de stockage pour Amazon S3, Amazon FSx, Amazon EFS et Amazon EBS.
Créez des métriques personnalisées pour mesurer les indicateurs clés de performance (KPI) métier. Les charges de travail mettent en œuvre des fonctions commerciales stratégiques, qui doivent être utilisées comme indicateurs clés de performance permettant d’identifier les problèmes indirects.
Surveillez l’expérience utilisateur pour détecter les défaillances à l’aide de tests canary utilisateur. Les tests de transaction synthétiques (également appelés « tests canary », à ne pas confondre avec les déploiements canary) qui peuvent exécuter et simuler le comportement des clients font partie des processus de test les plus importants. Exécutez ces tests en permanence sur vos points de terminaison de charge de travail à partir de divers emplacements distants.
Créez des métriques personnalisées qui suivent l’expérience utilisateur. Si vous pouvez analyser l’expérience du client, vous pouvez savoir à quel moment l’expérience du consommateur se dégrade.
Définissez des alarmes pour détecter quand une partie de votre charge de travail ne fonctionne pas correctement et pour indiquer quand mettre à l’échelle automatiquement les ressources. Le système peut afficher les alarmes sur des tableaux de bord, envoyer des alertes via Amazon SNS ou par e-mail et fonctionner avec Auto Scaling pour une mise à l’échelle à la hausse ou à la baisse des ressources de la charge de travail.
Créez des tableaux de bord pour la visualisation de vos métriques. Les tableaux de bord peuvent être utilisés pour afficher visuellement des tendances, des valeurs aberrantes et d’autres indicateurs de problèmes potentiels ou pour fournir une indication des problèmes que vous pourriez vouloir examiner.
Créez un système de suivi distribué pour vos services. La surveillance distribuée vous permet d’analyser les performances de votre application et de ses services sous-jacents, afin d’identifier et de dépanner la cause première des problèmes et des erreurs de performances.
Créez des systèmes de surveillance (à l’aide de CloudWatch ou X-Ray), des tableaux de bord et collectez des données dans une région et un compte distincts.
Restez informé des dégradations de service avec AWS Health. Créez des notifications d’événements AWS Health spécialement adaptées aux e-mails et aux canaux de discussion via Notifications des utilisateurs AWS et intégrez-les de manière programmatique à vos outils de surveillance et d’alerte via Amazon EventBridge.

Ressources

Bonnes pratiques associées :

Documents connexes :

Vidéos connexes :

Mitigating gray failures

Exemples connexes :

Un atelier sur l’observabilité : explorer X-Ray

Outils associés :

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Conception d’une charge de travail qui résiste aux défaillances des composants

REL11-BP02 Basculer vers des ressources saines