OPS11-BP02 Effectuer une analyse post-incident - AWS Well-Architected Framework

OPS11-BP02 Effectuer une analyse post-incident

Examinez les événements ayant un impact sur les clients, et identifiez les facteurs contributifs et les actions préventives. Utilisez ces informations pour développer des mesures d’atténuation afin de limiter ou d’empêcher la récurrence. Développez des procédures pour fournir des réponses rapides et efficaces. Publiez, le cas échéant, les facteurs adjuvants et les mesures correctives adaptées au public ciblé.

Résultat souhaité :

  • Vous avez mis en place des processus de gestion des incidents qui incluent une analyse post-incident.

  • Vous avez mis en place des plans d’observabilité pour collecter des données sur les événements.

  • Grâce à ces données, vous comprenez et vous collectez des métriques qui soutiennent votre processus d’analyse post-incident.

  • Vous tirez des leçons des incidents pour améliorer les résultats futurs.

Anti-modèles courants :

  • Vous administrez un serveur d’applications. Toutes vos séances actives sont interrompues toutes les 23 heures et 55 minutes environ. Vous avez essayé d’identifier le problème sur votre serveur d’applications. Vous pensez qu’il pourrait s’agir d’un problème de réseau, mais vous ne pouvez pas obtenir la coopération de l’équipe réseau, car elle est trop occupée pour vous aider. Vous n’avez pas de processus prédéfini à suivre pour obtenir de l’aide et collecter les informations nécessaires pour déterminer ce qui se passe.

  • Vous avez subi une perte de données au sein de votre charge de travail. C’est la première fois que cela se produit et la cause n’est pas évidente. Vous décidez que ce n’est pas important, car vous pouvez recréer les données. La perte de données se reproduit plus fréquemment en affectant vos clients. Cela vous impose également une charge opérationnelle supplémentaire lorsque vous restaurez les données manquantes.

Avantages de la mise en place de cette bonne pratique :

  • Vous disposez d’un processus prédéfini pour déterminer les composants, les conditions, les actions et les événements qui ont contribué à un incident, ce qui vous permet d’identifier les possibilités d’amélioration.

  • Vous utilisez les données issues de l’analyse post-incident pour apporter des améliorations.

Niveau de risque exposé si cette bonne pratique n’est pas respectée : élevé

Directives d’implémentation

Utilisez un processus pour déterminer les facteurs adjuvants. Passez en revue tous les incidents ayant un impact sur le client. Dotez-vous d’un processus pour identifier et documenter les facteurs contributifs d’un incident afin de pouvoir mettre au point des mesures d’atténuation pour limiter ou empêcher la récurrence, et élaborez des procédures pour fournir des réponses rapides et efficaces. Communiquez les causes profondes des incidents, le cas échéant, et adaptez la communication à votre public cible. Partagez ouvertement les apprentissages au sein de votre organisation.

Étapes d’implémentation

  1. Collectez des métriques telles que le changement de déploiement, le changement de configuration, l’heure de début de l’incident, l’heure d’alarme, l’heure d’engagement, l’heure de début de l’atténuation et l’heure de résolution de l’incident.

  2. Décrivez les principaux moments de la chronologie pour comprendre les événements de l’incident.

  3. Posez les questions suivantes :

    1. Pourriez-vous améliorer le délai de détection ?

    2. Existe-t-il des mises à jour des métriques et des alarmes qui permettraient de détecter l’incident plus rapidement ?

    3. Pouvez-vous améliorer le délai de diagnostic ?

    4. Y a-t-il des mises à jour de vos plans de réponse ou de vos plans d’escalade qui permettraient d’impliquer plus rapidement les bons intervenants ?

    5. Pouvez-vous améliorer le délai d’atténuation ?

    6. Y a-t-il des étapes du runbook ou du playbook que vous pourriez ajouter ou améliorer ?

    7. Pouvez-vous éviter que de futurs incidents se produisent ?

  4. Créez des listes de contrôle et des actions. Suivez et mettez en œuvre toutes les actions.

Niveau d’effort du plan d’implémentation : moyen

Ressources

Bonnes pratiques associées :

Documents connexes :