REL12-BP01 Utiliser des playbooks pour étudier les défaillances - AWS Framework Well-Architected

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

REL12-BP01 Utiliser des playbooks pour étudier les défaillances

Consignez le processus d’enquête dans des playbooks afin de faciliter l’application de réponses cohérentes et rapides face aux scénarios de défaillance qui ne sont pas bien compris. Les playbooks sont les étapes prédéfinies suivies pour identifier les facteurs adjuvants à un scénario de défaillance. Les résultats des étapes du processus sont utilisés pour déterminer les prochaines mesures à prendre jusqu’à ce que la question soit identifiée ou remontée.

Le playbook est une planification proactive que vous devez appliquer afin de pouvoir prendre efficacement des mesures réactives. Lorsque des scénarios de défaillance ne figurant pas dans le playbook sont rencontrés en production, commencez par résoudre le problème (éteindre l’incendie). Procédez ensuite à une rétrospective en examinant les étapes suivies pour résoudre le problème et utilisez-les pour ajouter une nouvelle entrée dans le playbook.

Notez que les playbooks sont utilisés en réponse à des incidents spécifiques, tandis que les runbooks le sont pour obtenir des résultats spécifiques. En règle générale, les runbooks sont employés pour les activités de routine et les playbooks pour répondre à des événements non réguliers.

Anti-modèles courants :

  • Planification du déploiement d’une charge de travail sans connaître les processus permettant de diagnostiquer les problèmes ou de réagir aux incidents.

  • Décisions imprévues sur les systèmes à partir desquels peut se faire la collecte des journaux et métriques lors de l’examen d’un événement.

  • Non-conservation des métriques et événements pendant suffisamment longtemps pour pouvoir récupérer les données.

Avantages du respect de cette bonne pratique : la capture de playbooks garantit le respect constant des processus. La codification de vos playbooks limite l’introduction d’erreurs à partir de l’activité manuelle. L’automatisation des playbooks accélère le temps de réponse à un événement en évitant aux membres de l’équipe d’intervenir ou en leur fournissant des informations supplémentaires lorsque leur intervention commence.

Niveau d’exposition au risque si cette bonne pratique n’est pas respectée : élevé

Directives d’implémentation

  • Utilisez des playbooks pour identifier les problèmes. Les playbooks sont des processus documentés pour enquêter sur les problèmes. Mettez en œuvre des réponses cohérentes et rapides aux échecs en documentant les processus dans des playbooks. Les playbooks doivent contenir les informations et les instructions nécessaires pour permettre à une personne compétente de recueillir les informations pertinentes, identifier les causes potentielles de défaillance, isoler les pannes et déterminer les facteurs adjuvants (c’est-à-dire effectuer une analyse post-incident).

Ressources

Documents connexes :

Exemples connexes :