OPS08-BP04 Création d'alertes exploitables - AWS Well-Architected Framework

OPS08-BP04 Création d'alertes exploitables

Il est crucial de détecter rapidement les écarts de comportement de votre application et d'y réagir rapidement. Il est particulièrement important de savoir quand les résultats basés sur les indicateurs clés de performance (KPI) sont menacés ou lorsque des anomalies inattendues surviennent. Le fait de baser les alertes sur les KPI garantit que les signaux que vous recevez sont directement liés à l'impact commercial ou opérationnel. Cette approche des alertes exploitables favorise les réponses proactives et contribue à maintenir les performances et la fiabilité du système.

Résultat souhaité : Vous recevez des alertes opportunes, pertinentes et exploitables permettent d'identifier et d'atténuer rapidement les problèmes potentiels, en particulier lorsque les résultats basés sur les KPI sont menacés.

Anti-modèles courants :

  • Configurer un trop grand nombre d'alertes non critiques, ce qui entraîne de la lassitude.

  • Ne pas hiérarchiser les alertes en fonction des KPI, ce qui complique la compréhension de l'impact commercial des problèmes.

  • Négliger de traiter les causes profondes, ce qui entraîne des alertes répétitives pour le même problème.

Avantages liés au respect de cette bonne pratique :

  • Réduction de la lassitude liée aux alertes grâce à des alertes pertinentes et exploitables.

  • Disponibilité et fiabilité du système améliorées grâce à la détection et à l'atténuation proactives des problèmes.

  • Collaboration d'équipe améliorée et résolution plus rapide des problèmes grâce à l'intégration à des outils connus d'alerte et de communication.

Niveau d'exposition au risque si cette bonne pratique n'est pas respectée : Élevé

Directives d'implémentation

Pour créer un mécanisme d'alerte efficace, il est essentiel d'utiliser des métriques, des journaux et des données de suivi qui signalent les risques liés aux résultats basés sur les KPI ou les anomalies détectées.

Étapes d'implémentation

  1. Déterminez les indicateurs clés de performance (KPI) : Identifiez les KPI de votre application. Les alertes doivent être liées à ces KPI afin de refléter avec précision l'impact commercial.

  2. Mettez en œuvre la détection des anomalies :

    • Utilisez AWS Cost Anomaly Detection : Configurez AWS Cost Anomaly Detection pour détecter automatiquement les modèles inhabituels, en veillant à ce que les alertes ne soient générées que pour les anomalies réelles.

    • Utilisez X-Ray Insights :

      1. Configurez X-Ray Insights pour détecter les anomalies dans les données de suivi.

      2. Configurez les notifications pour X-Ray Insights pour être alerté des problèmes détectés.

    • Intégrez DevOps Guru :

      1. Exploitez Amazon DevOps Guru pour ses fonctionnalités de machine learning permettant de détecter les anomalies opérationnelles avec des données existantes.

      2. Accédez aux paramètres de notification dans DevOps Guru pour configurer des alertes d'anomalie.

  3. Implémentez des alertes exploitables : Concevez des alertes qui fournissent des informations adéquates pour une action immédiate.

  4. Réduisez la lassitude liée aux alarmes : Minimisez les alertes non critiques. Le fait de surcharger les équipes avec de nombreuses alertes insignifiantes peut les inciter à négliger des problèmes critiques et diminuer l'efficacité globale du mécanisme d'alerte.

  5. Configurez des alarmes composites : Utilisez des alarmes composites Amazon CloudWatch pour regrouper plusieurs alarmes.

  6. Intégrez des outils d'alerte : Intégrez des outils tels que Ops Genie et PagerDuty.

  7. Impliquez AWS Chatbot Intégrez AWS Chatbotpour transmettre des alertes à Chime, Microsoft Teams et Slack.

  8. Alerte basée sur les journaux : Utilisez des filtres de métriques de journaux dans CloudWatch pour créer des alarmes basées sur des événements de journal spécifiques.

  9. Passez en revue et répétez : Revoyez et affinez régulièrement les configurations des alertes.

Niveau d'effort du plan d'implémentation : moyen.

Ressources

Bonnes pratiques associées :

Documents connexes :

Vidéos connexes :

Exemples connexes :