REL11-BP01 Surveiller tous les composants de la charge de travail pour détecter les défaillances - AWS Framework Well-Architected

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

REL11-BP01 Surveiller tous les composants de la charge de travail pour détecter les défaillances

Surveillez en continu l’état de votre charge de travail afin que vous et vos systèmes automatisés ayez connaissance des dégradations ou des défaillances dès qu’elles se produisent. Surveillez les indicateurs de performance clés (KPIs) en fonction de la valeur commerciale.

Tous les mécanismes de récupération et de réparation doivent commencer par la capacité à détecter rapidement les problèmes. Les défaillances techniques doivent être détectées au préalable pour être résolues. Cependant, la disponibilité dépend de la capacité de votre charge de travail à générer de la valeur commerciale. Les indicateurs de performance clés (KPIs) qui mesurent cette valeur doivent donc faire partie de votre stratégie de détection et de correction.

Résultat escompté : les composants essentiels d’une charge de travail sont surveillés de manière indépendante afin de détecter les défaillances et de les signaler au moment et à l’emplacement où elles se produisent.

Anti-modèles courants :

  • Aucune alarme n’a été configurée. Les pannes se produisent donc sans notification.

  • Des alarmes existent, mais les seuils ne laissent pas assez de temps pour réagir.

  • Les métriques ne sont pas collectées assez souvent pour atteindre l'objectif de temps de rétablissement (RTO).

  • Seules les interfaces de la charge de travail axées directement sur le client sont activement surveillées.

  • Collecte uniquement des métriques techniques et non des métriques de fonction commerciale.

  • Aucune métrique ne mesure l’expérience utilisateur de la charge de travail.

  • Trop de contrôleurs sont créés.

Avantages liés au respect de cette bonne pratique : la surveillance appropriée à tous les niveaux vous permet de raccourcir le délai de reprise en réduisant le temps de détection.

Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : élévé

Directives d’implémentation

Identifiez toutes les charges de travail qui seront examinées à des fins de surveillance. Une fois que vous avez identifié tous les composants de la charge de travail à surveiller, déterminez l’intervalle de surveillance. Cet intervalle a un impact direct sur la rapidité avec laquelle la restauration peut être initiée en fonction du temps nécessaire pour détecter une panne. Le délai moyen de détection (MTTD) est le délai entre la survenue d'une panne et le début des opérations de réparation. La liste des services doit être longue et complète.

La surveillance doit couvrir toutes les couches de la pile d’applications, y compris l’application, la plateforme, l’infrastructure et le réseau.

Votre stratégie de surveillance doit tenir compte de l’impact des défaillances grises. Pour en savoir plus sur les défaillances grises, consultez la section Défaillances grises dans le livre blanc Modèles de résilience Multi-AZ avancée.

Étapes d’implémentation

  • Votre intervalle de surveillance dépend de la vitesse à laquelle vous devez effectuer la récupération. Votre temps de rétablissement est déterminé par le temps nécessaire pour récupérer. Vous devez donc déterminer la fréquence de collecte en tenant compte de ce temps et de votre objectif de temps de rétablissement (RTO).

  • Configurez la surveillance détaillée des composants et des services gérés.

  • Créez des métriques personnalisées pour mesurer les indicateurs de performance clés de l'entreprise (KPIs). Les charges de travail mettent en œuvre des fonctions commerciales clés, qui doivent être utilisées pour aider à identifier lorsqu'un problème indirect survient. KPIs

  • Surveillez l’expérience utilisateur pour détecter les défaillances à l’aide de tests canary utilisateur. Les tests de transaction synthétiques (également appelés « tests canary », à ne pas confondre avec les déploiements canary) qui peuvent exécuter et simuler le comportement des clients font partie des processus de test les plus importants. Exécutez ces tests en permanence sur vos points de terminaison de charge de travail à partir de divers emplacements distants.

  • Créez des métriques personnalisées qui suivent l’expérience utilisateur. Si vous pouvez analyser l’expérience du client, vous pouvez savoir à quel moment l’expérience du consommateur se dégrade.

  • Définissez des alarmes pour détecter quand une partie de votre charge de travail ne fonctionne pas correctement et pour indiquer quand mettre à l’échelle automatiquement les ressources. Les alarmes peuvent être affichées visuellement sur les tableaux de bord, envoyer des alertes via Amazon SNS ou par e-mail, et fonctionner avec Auto Scaling pour augmenter ou diminuer les ressources de charge de travail.

  • Créez des tableaux de bord pour la visualisation de vos métriques. Les tableaux de bord peuvent être utilisés pour afficher visuellement des tendances, des valeurs aberrantes et d’autres indicateurs de problèmes potentiels ou pour fournir une indication des problèmes que vous pourriez vouloir examiner.

  • Créez un système de suivi distribué pour vos services. La surveillance distribuée vous permet d’analyser les performances de votre application et de ses services sous-jacents, afin d’identifier et de dépanner la cause première des problèmes et des erreurs de performances.

  • Créez des tableaux de bord de systèmes de surveillance (à l'aide CloudWatchde X-Ray) et collectez des données dans une région et un compte distincts.

  • Créez une intégration pour la surveillance Amazon Health Aware afin de permettre de surveiller la visibilité AWS des ressources susceptibles de présenter des dégradations. Pour les charges de travail essentielles à l'entreprise, cette solution donne accès à des alertes proactives et en temps réel pour les AWS services.

Ressources

Bonnes pratiques associées :

Documents connexes :

Vidéos connexes :

Exemples connexes :

Outils associés :