Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Anhang B ‒ Quantitative und qualitative Maßnahmen
In diesem Abschnitt werden quantitative Kennzahlen zur Erfassung betrieblicher Verbesserungen und qualitative Maßnahmen zur Bewertung allgemeiner organisatorischer Ergebnisse von Chaos-Engineering-Praktiken beschrieben.
Quantitative Maßnahmen
Die folgenden quantitativen Kennzahlen bieten einen Rahmen für die Erfassung wichtiger Kennzahlen, anhand derer sich die direkten Verbesserungen bei Zwischenfällen und Betriebsabläufen nachweisen lassen, die durch Chaos-Engineering-Praktiken erzielt wurden:
-
Vorfälle:
-
Häufigkeit von Vorfällen ‒ Verfolgen Sie die Anzahl der Vorfälle innerhalb eines Rahmens zur Klassifizierung von Vorfällen und klassifizieren Sie sie nach ihrer Kritikalität (kritisch, schwerwiegend, geringfügig) über einen bestimmten Zeitraum. Weitere Informationen zum Rahmen zur Klassifizierung von Vorfällen finden Sie in Anhang C.
-
Ausfallzeit und Verschlechterung ‒ Messen Sie die Gesamtdauer von Ausfallzeiten oder Leistungseinbußen für jede Klassifizierung von Vorfällen.
-
Kennzahlen zur Reaktion auf Vorfälle ‒ Um Vorfälle zu verstehen, messen Sie die Zeit bis zur Erkennung, die Zeit bis zur Identifizierung, die Zeit bis zur Minderung, die Zeit bis zur Wiederherstellung, die Zeit bis zur Eskalation und andere verwandte Kennzahlen für jede Vorfallklassifizierung.
-
Kundenbelastende Vorfälle ‒ Verfolgen Sie die Anzahl der Vorfälle, die sich auf Kunden auswirken, oder den Prozentsatz der Vorfälle, die vor den Auswirkungen auf den Kunden eingedämmt wurden.
-
Runbook-Änderungen ‒ Verfolgen Sie die Anzahl der Runbook-Updates oder -Überarbeitungen, die sich aus Erkenntnissen ergeben, die durch Chaosexperimente gewonnen wurden. Ein Runbook enthält detaillierte Anweisungen für die Durchführung eines bestimmten Vorgangs oder Verfahrens zur Wiederherstellung nach einer bestimmten Art von Vorfall.
-
-
Kosten:
-
Infrastrukturkosten ‒ Sammeln Sie Daten zu den Infrastrukturkosten, einschließlich Cloud-Computing-Ressourcen und Redundanzmaßnahmen, die für die Maßnahmen zur Verbesserung der Widerstandsfähigkeit erforderlich sind.
-
Auswirkungen auf die Kunden ‒ Messen Sie die Auswirkungen auf das Kundenerlebnis, die Abwanderungsraten und Umsatzverluste aufgrund von Systemausfällen oder Ausfallzeiten.
-
Mitarbeiterproduktivität ‒ Verfolgen Sie die Zeit, die die Ingenieur- und Betriebsteams mit der Reaktion auf Vorfälle, der Brandbekämpfung, der Erstellung von Nachbesprechungen und anderen reaktiven Aufgaben im Zusammenhang mit Systemausfällen verbringen.
-
-
Kontinuierliche Systemverbesserungen ‒ Zählen Sie die Anzahl der Prozessverbesserungen, Architekturänderungen oder automatisierten Wiederherstellungsmechanismen, die als direktes Ergebnis von Erkenntnissen aus Chaosexperimenten implementiert wurden.
-
Einhaltung gesetzlicher Vorschriften ‒ Behalten Sie die Kosten im Blick und arbeiten Sie daran, regulatorische Anforderungen oder Industriestandards in Bezug auf die betriebliche Belastbarkeit zu erfüllen.
-
Einführung ‒ Verfolgen Sie die Akzeptanz von Chaos-Praktiken im gesamten Unternehmen.
-
Kundenzufriedenheit ‒ Messen Sie Veränderungen der Kundenzufriedenheitskennzahlen, um zu beurteilen, wie sich eine verbesserte Systemzuverlässigkeit auf das Geschäft auswirkt.
Qualitative Maßnahmen
Die folgenden qualitativen Maßnahmen bieten einen Rahmen für die Erfassung der allgemeinen organisatorischen Ergebnisse, die durch Chaos-Engineering-Praktiken erzielt wurden:
-
Selbstvertrauen und Bereitschaft der Mitarbeiter:
-
Befragen Sie die Teams regelmäßig, um ihr Selbstvertrauen im Umgang mit realen Vorfällen und ihre wahrgenommene Bereitschaft zu Bereitschaftswechseln zu messen.
-
Erfassen Sie den Prozentsatz der Bereitschaftsingenieure, die im Rahmen ihrer Ausbildung an Chaosexperimenten teilgenommen haben.
-
-
Kultureller Wandel:
-
Beurteilen Sie anhand von Umfragen, Feedbacksitzungen oder Audits, inwieweit die Denkweise der Resilienz das Unternehmen durchdrungen hat.
-
Verfolgen Sie die Anzahl der Teams, die sich aktiv für Chaos-Engineering-Praktiken einsetzen und diese befürworten.
-
-
Funktionsübergreifende Zusammenarbeit und Wissensaustausch:
-
Verfolgen Sie die Häufigkeit und Teilnahme an teamübergreifenden Sitzungen oder Workshops zum Wissensaustausch im Zusammenhang mit dem Lernen im Bereich Chaos Engineering.
-
Verfolgen Sie die Anzahl der gemeinsamen Initiativen im Bereich Chaos Engineering, an denen mehrere Teams oder Abteilungen beteiligt sind.
-
-
Effektivität der Schulungen:
-
Bewerten Sie die Effektivität von Schulungsprogrammen für Chaos Engineering, indem Sie nach der Schulung Umfragen oder Bewertungen durchführen.
-
Verfolgen Sie die Anzahl der Techniker, die an Schulungsprogrammen zur Chaos-Technik teilnehmen, und lesen Sie die Postmortems.
-
-
Gewinnung und Bindung von Talenten:
-
Prüfen Sie, ob das Chaos Engineering-Programm dazu beiträgt, die besten Techniker zu gewinnen und zu halten, indem es den Zeit- und Arbeitsaufwand für die Behebung von Ausfällen reduziert.
-
-
Ruf der Marke:
-
Verfolgen Sie alle Veränderungen der Markenwahrnehmung oder des Rufs im Zusammenhang mit dem nachgewiesenen Engagement des Unternehmens für betriebliche Widerstandsfähigkeit.
-
-
Wettbewerbsvorteil:
-
Verfolgen Sie den Wettbewerbsvorteil gegenüber Branchenkollegen in Bezug auf die Systemverfügbarkeit.
-