OPS10-BP02 Disposer d’un processus par alerte - Pilier Excellence opérationnelle

OPS10-BP02 Disposer d’un processus par alerte

Il est essentiel d’établir un processus clair et défini pour chaque alerte de votre système afin de garantir une gestion efficace et efficiente des incidents. Cette pratique garantit que chaque alerte entraîne une réponse spécifique et exploitable, améliorant ainsi la fiabilité et la réactivité de vos opérations.

Résultat escompté : chaque alerte déclenche un plan de réponse spécifique et bien défini. Dans la mesure du possible, les réponses sont automatisées, avec une propriété clairement établie et une procédure de remontée définie. Les alertes sont liées à une base de connaissances actualisée afin que chaque opérateur puisse réagir de manière cohérente et efficace. Les réponses sont rapides et uniformes à tous les niveaux, ce qui améliore l’efficacité et la fiabilité opérationnelles.

Anti-modèles courants :

  • Les alertes n’ont pas de processus de réponse prédéfini, ce qui entraîne des résolutions improvisées et différées.

  • En raison de la surcharge d’alertes, celles qui sont importantes sont ignorées.

  • Les alertes ne sont pas traitées de manière cohérente en raison de l’absence de définition claire de la propriété et des responsabilités.

Avantages liés au respect de cette bonne pratique :

  • Réduction de la lassitude liée aux alertes en ne déclenchant que des alertes exploitables.

  • Diminution du délai moyen de résolution (MTTR) des problèmes opérationnels.

  • Diminution du délai moyen d’investigation (MTTI), ce qui contribue à réduire le MTTR.

  • Capacité accrue à mettre à l’échelle les réponses opérationnelles.

  • Amélioration de la cohérence et de la fiabilité dans la gestion des événements opérationnels.

Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : élevé

Directives d’implémentation

Pour disposer d’un processus par alerte, il est nécessaire d’établir un plan de réponse clair pour chaque alerte, d’automatiser les réponses dans la mesure du possible et d’améliorer continuellement ces processus en fonction des commentaires opérationnels et de l’évolution des exigences.

Étapes d’implémentation

Le schéma suivant illustre le flux de travail de gestion des incidents dans AWS Systems Manager Incident Manager. Il est conçu pour répondre rapidement aux problèmes opérationnels en créant automatiquement des incidents en réponse à des événements spécifiques provenant d’Amazon CloudWatch ou d’Amazon EventBridge. Lorsqu’un incident est créé, automatiquement ou manuellement, Incident Manager centralise la gestion de l’incident, organise les informations pertinentes sur les ressources AWS et lance des plans de réponse prédéfinis. Il s’agit entre autres de l’exécution de runbooks Automation pour une action immédiate, ainsi que de la création d’un élément de travail opérationnel parent dans OpsCenter afin de suivre les tâches et les analyses associées. Ce processus rationalisé accélère et coordonne la réponse aux incidents dans l’ensemble de votre environnement AWS.

Organigramme illustrant la façon dont Incident Manager fonctionne – AWS Chatbot, les plans et les contacts de remontée, ainsi que les runbooks, sont intégrés aux plans d’intervention, qui sont ajoutés aux incidents et aux analyses. Amazon CloudWatch est également pris en compte dans les plans d’intervention.

  1. Utiliser des alarmes composites : créez des alarmes composites dans CloudWatch pour regrouper les alarmes associées, réduire le bruit et permettre des réponses plus pertinentes.

  2. Intégrer les alarmes Amazon CloudWatch à Incident Manager : configurez les alarmes CloudWatch pour créer automatiquement des incidents dans AWS Systems Manager Incident Manager.

  3. Intégrer Amazon EventBridge à Incident Manager : créez des règles EventBridge pour réagir aux événements et créer des incidents à l’aide de plans d’intervention définis.

  4. Préparez-vous aux incidents dans Incident Manager :

    • Établissez des plans d’intervention détaillés dans Incident Manager pour chaque type d’alerte.

    • Établissez des canaux de discussion par le biais de AWS Chatbot connecté aux plans d’intervention dans Incident Manager, afin de faciliter la communication en temps réel lors d’incidents sur des plateformes telles que Slack, Microsoft Teams et Amazon Chime.

    • Intégrez les runbooks d’automatisation de la gestion des systèmes dans Incident Manager pour générer des interventions automatisées en cas d’incidents.

Ressources

Bonnes pratiques associées :

Documents connexes :

Vidéos connexes :

Exemples connexes :