OPS08-BP04 Créez des alertes exploitables - AWS Framework Well-Architected

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

OPS08-BP04 Créez des alertes exploitables

Il est crucial de détecter rapidement les écarts de comportement de votre application et d’y réagir rapidement. Il est particulièrement important de savoir quand les résultats basés sur des indicateurs de performance clés (KPIs) sont menacés ou lorsque des anomalies inattendues surviennent. La base des alertes KPIs garantit que les signaux que vous recevez sont directement liés à l'impact commercial ou opérationnel. Cette approche des alertes exploitables favorise les réponses proactives et contribue à maintenir les performances et la fiabilité du système.

Résultat souhaité : Recevez des alertes opportunes, pertinentes et exploitables pour identifier et atténuer rapidement les problèmes potentiels, en particulier lorsque KPI les résultats sont menacés.

Anti-modèles courants :

  • Configurer un trop grand nombre d’alertes non critiques, ce qui entraîne de la lassitude.

  • Ne pas hiérarchiser les alertes en fonction de KPIs celles-ci, ce qui complique la compréhension de l'impact commercial des problèmes.

  • Négliger de traiter les causes profondes, ce qui entraîne des alertes répétitives pour le même problème.

Avantages liés au respect de cette bonne pratique :

  • Réduction de la lassitude liée aux alertes grâce à des alertes pertinentes et exploitables.

  • Disponibilité et fiabilité du système améliorées grâce à la détection et à l’atténuation proactives des problèmes.

  • Collaboration d’équipe améliorée et résolution plus rapide des problèmes grâce à l’intégration à des outils connus d’alerte et de communication.

Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : élevé

Directives d’implémentation

Pour créer un mécanisme d'alerte efficace, il est essentiel d'utiliser des métriques, des journaux et des données de suivi qui signalent les cas où les résultats KPIs sont menacés ou lorsque des anomalies sont détectées.

Étapes d’implémentation

  1. Déterminer les indicateurs de performance clés (KPIs) : Identifiez ceux de votre applicationKPIs. Les alertes doivent être liées à celles-ci KPIs afin de refléter avec précision l'impact commercial.

  2. Mise en œuvre de la détection des anomalies :

    • Utilisez la détection des CloudWatch anomalies Amazon : configurez la détection des CloudWatch anomalies Amazon pour détecter automatiquement les modèles inhabituels, ce qui vous permet de générer des alertes uniquement pour les anomalies authentiques.

    • Utilisez AWS X-Ray Insights :

      1. Configurez X-Ray Insights pour détecter les anomalies dans les données de trace.

      2. Configurez les notifications pour que X-Ray Insights soit alerté des problèmes détectés.

    • Intégrez Amazon DevOps Guru :

      1. Tirez parti d'Amazon DevOps Guru pour ses capacités d'apprentissage automatique permettant de détecter les anomalies opérationnelles avec les données existantes.

      2. Accédez aux paramètres de notification dans DevOps Guru pour configurer des alertes d'anomalie.

  3. Mise en place d’alertes exploitables : concevez des alertes qui fournissent des informations adéquates pour une action immédiate.

    1. Surveillez AWS Health les événements EventBridge selon les règles d'Amazon ou intégrez-les par programmation AWS Health API pour automatiser les actions lorsque vous recevez des AWS Health événements. Il peut s’agir d’actions générales, telles que l’envoi de tous les messages relatifs aux événements du cycle de vie planifiés vers une interface de discussion, ou d’actions spécifiques, telles que le lancement d’un flux de travail dans un outil de gestion des services informatiques.

  4. Réduction de la fatigue liée aux alertes : minimisez les alertes non critiques. Lorsque les équipes sont submergées par de nombreuses alertes insignifiantes, elles peuvent finir par ignorer des problèmes critiques, ce qui diminue l’efficacité globale du mécanisme d’alerte.

  5. Configurez des alarmes composites : utilisez les alarmes CloudWatch composites Amazon pour consolider plusieurs alarmes.

  6. Intégration aux outils d'alerte : Incorporez des outils tels que Ops Genie et PagerDuty.

  7. Engagez-vous AWS Chatbot : intégrez AWS Chatbotpour relayer les alertes vers Amazon Chime, Microsoft Teams et Slack.

  8. Alerte basée sur les journaux : utilisez des filtres métriques de journalisation CloudWatch pour créer des alarmes basées sur des événements de journal spécifiques.

  9. Révision et itération : révisez et affinez régulièrement les configurations des alertes.

Niveau d’effort du plan d’implémentation : moyen

Ressources

Bonnes pratiques associées :

Documents connexes :

Vidéos connexes :

Exemples connexes :