Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Annexe B ‒ Mesures quantitatives et qualitatives
Cette section décrit les mesures quantitatives pour suivre les améliorations opérationnelles et les mesures qualitatives pour évaluer les résultats organisationnels généraux issus des pratiques d'ingénierie du chaos.
Mesures quantitatives
Les mesures quantitatives suivantes fournissent un cadre pour le suivi des indicateurs clés qui peuvent démontrer les améliorations opérationnelles et liées aux incidents directs obtenues grâce aux pratiques d'ingénierie du chaos :
-
Incidents :
-
Fréquence des incidents ‒ Suivez le nombre d'incidents dans un cadre de classification des incidents et classez-les en fonction de leur criticité (critique, majeur, mineur) sur une période donnée. Pour plus d'informations sur le cadre de classification des incidents, voir l'annexe C.
-
Temps d'arrêt et dégradation ‒ Mesurez la durée totale des interruptions de service ou de la dégradation des services pour chaque catégorie d'incident.
-
Mesures de réponse aux incidents ‒ Pour comprendre les incidents, mesurez le temps de détection, le temps d'identification, le temps d'atténuation, le temps de reprise, le temps d'escalade et d'autres indicateurs connexes pour chaque classification d'incident.
-
Incidents ayant un impact sur le client ‒ Suivez le nombre d'incidents ayant un impact sur les clients ou le pourcentage d'incidents maîtrisés avant l'impact sur le client.
-
Modifications apportées au runbook ‒ Suivez le nombre de mises à jour ou de révisions du runbook résultant des connaissances acquises lors d'expériences sur le chaos. Un manuel d'exécution fournit des instructions détaillées pour effectuer une opération ou une procédure particulière afin de récupérer après un type d'incident particulier.
-
-
Coûts :
-
Coûts d'infrastructure ‒ Collectez des données sur les coûts d'infrastructure, y compris les ressources informatiques en nuage et les mesures de redondance requises par les mesures prises pour améliorer la résilience.
-
Impact sur les clients ‒ Mesurez les impacts sur l'expérience client, les taux de désabonnement et les pertes de revenus associés aux défaillances ou aux temps d'arrêt du système.
-
Productivité du personnel ‒ Suivez le temps consacré par les équipes d'ingénierie et d'exploitation à la réponse aux incidents, à la lutte contre les incendies, à la rédaction d'autopsies et à d'autres tâches réactives liées aux défaillances du système.
-
-
Améliorations continues du système ‒ Comptez le nombre d'améliorations de processus, de modifications architecturales ou de mécanismes de reprise automatisés mis en œuvre en conséquence directe des informations issues d'expériences de chaos.
-
Conformité ‒ Suivez les coûts et efforcez-vous de respecter les exigences réglementaires ou les normes du secteur liées à la résilience opérationnelle.
-
Adoption ‒ Suivez le taux d'adoption des pratiques chaotiques au sein de l'organisation.
-
Satisfaction client ‒ Mesurez l'évolution des indicateurs de satisfaction client pour évaluer l'impact de l'amélioration de la fiabilité du système sur l'entreprise.
Mesures qualitatives
Les mesures qualitatives suivantes fournissent un cadre pour suivre les résultats organisationnels généraux obtenus grâce aux pratiques d'ingénierie du chaos :
-
Confiance et préparation des employés :
-
Sondez régulièrement les équipes pour mesurer leur niveau de confiance dans la gestion des incidents du monde réel et leur niveau de préparation perçu aux rotations sur appel.
-
Suivez le pourcentage d'ingénieurs de garde qui ont participé à des expériences de chaos dans le cadre de leur formation.
-
-
Changement culturel :
-
Évaluez dans quelle mesure un état d'esprit de résilience a imprégné l'organisation par le biais d'enquêtes, de sessions de feedback ou d'audits.
-
Suivez le nombre d'équipes qui défendent et défendent activement les pratiques d'ingénierie du chaos.
-
-
Collaboration interfonctionnelle et partage des connaissances :
-
Suivez la fréquence et la participation aux sessions ou ateliers de partage de connaissances entre équipes liés à l'apprentissage de l'ingénierie du chaos.
-
Suivez le nombre d'initiatives conjointes d'ingénierie du chaos impliquant plusieurs équipes ou départements.
-
-
Efficacité de la formation :
-
Évaluez l'efficacité des programmes de formation en ingénierie du chaos en menant des enquêtes ou des évaluations après la formation.
-
Suivez le nombre d'ingénieurs qui participent aux programmes de formation en ingénierie du chaos et lisez les autopsies.
-
-
Attraction et rétention des talents :
-
Évaluez si le programme d'ingénierie du chaos aide à attirer et à retenir les meilleurs talents en ingénierie en réduisant le temps et les efforts consacrés à la réparation des pannes.
-
-
Réputation de la marque :
-
Suivez tout changement dans la perception ou la réputation de la marque lié à l'engagement démontré de l'organisation en matière de résilience opérationnelle.
-
-
Avantage compétitif :
-
Suivez votre avantage concurrentiel par rapport à vos concurrents du secteur en termes de disponibilité des systèmes.
-