Ausfallkosten und das Aufkommen von Chaos Engineering - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Ausfallkosten und das Aufkommen von Chaos Engineering

Das Information Technology Intelligence Consulting (ITIC) schätzt, dass 90 Prozent der Unternehmen mit Kosten von über 300.000$ pro Stunde Ausfallzeit konfrontiert sind, wobei 41 Prozent über 1—5 Millionen $ pro Stunde liegen. Neben unmittelbaren Umsatzeinbußen können Ausfallzeiten auch zu längerfristigen Problemen wie Compliance-Verstößen, gesunkenen Aktienkursen, erheblichen Minderungskosten und sogar zu Markenschäden führen.

Ausfallzeiten werden zwar häufig mit umsatzgenerierenden Online-Systemen in Verbindung gebracht, die negativen Auswirkungen gehen jedoch weit darüber hinaus. Alle großen Unternehmen und Organisationen verlassen sich unabhängig von ihrem primären Umsatzmodell entscheidend auf die Verfügbarkeit ihrer internen Systeme wie Personalwesen und Gehaltsabrechnung.

Ausfallzeiten, die sich auf diese zentralen internen Dienste auswirken, können die Funktionsfähigkeit eines Unternehmens beeinträchtigen und zu erheblichen Betriebsstörungen und finanziellen Auswirkungen führen. Die daraus resultierenden Probleme können Folgendes umfassen:

  • Verzögerungen bei der Bezahlung von Mitarbeitern und Lieferanten

  • Unfähigkeit, Kundenbestellungen oder Transaktionen zu bearbeiten

  • Verstöße gegen sensible Daten, die durch kompromittierte Sicherheitssysteme ermöglicht wurden

  • Verlust von Produktivität und Umsatzmöglichkeiten

  • Gesetzliche Sanktionen bei Nichteinhaltung

  • Schädigung des Rufs der Marke

Chaos Engineering führt bewusst zu kontrollierten Störungen. Der Einsatz von Chaos Engineering, um die Reaktion des Systems auf Beeinträchtigungen zu verstehen oder zu überprüfen, ist zu einer wichtigen Praxis für die Verbesserung der Widerstandsfähigkeit von Systemen geworden. Chaos Engineering ermöglicht es Ihrem Unternehmen, proaktiv Probleme aufzudecken, Resilienzmechanismen zu validieren und letztendlich das Risiko ungeplanter Ausfallzeiten und der damit verbundenen Kosten zu reduzieren. Zu den Vorteilen von Chaos Engineering gehören:

  • Aufdeckung technischer Schulden

  • Training einsatzfähiger Muskeln

  • Vertrauen in Systeme aufbauen

  • Identifizierung von Fehlerquellen

  • Verbesserung der Überwachung und Beobachtbarkeit

  • Unterstützung des experimentellen Lernens

  • Bereitstellung verbesserter Widerstandsfähigkeit zur Reduzierung von Ausfallzeiten

Da Systeme immer komplexer werden und die Kundenerwartungen steigen, gewinnt Chaos Engineering zunehmend an Bedeutung. Gartner empfiehlt Chaos Engineering als wichtige Methode für Unternehmen, um ungeplante Ausfallzeiten zu reduzieren und die Widerstandsfähigkeit zu verbessern.

Die Herausforderungen bei der Einführung von Chaos Engineering

Obwohl Chaos Engineering eine immer wichtigere Methode zur Verbesserung der Widerstandsfähigkeit von Systemen darstellt, kann ihre Einführung auf die folgenden Hindernisse stoßen:

  • Fehleinschätzungen in Bezug auf Risiken ‒ Eine weit verbreitete Fehleinschätzung ist, dass Chaos Engineering nur in Produktionsumgebungen angewendet wird, was zu Bedenken hinsichtlich übermäßiger Risiken führt. Diese Auffassung ist auf mangelndes Verständnis für den systematischen und kontrollierten Charakter von Chaos-Engineering-Praktiken zurückzuführen. Wie im AWS Well-Architected Framework erwähnt, führen Sie die Fehlersimulation zunächst in einer Nicht-Produktionsumgebung durch.

  • Langfristiger Geschäftswert ‒ Die Vorteile von Chaos Engineering stellen sich allmählich ein, sodass es schwierig ist, den Geschäftswert zu quantifizieren und die Anfangsinvestition zu rechtfertigen. Der langsamere ROI macht es für Unternehmen schwierig, Prioritäten zu setzen und sich an Chaos Engineering zu halten.

  • Qualifikations- und Fachkräftemangel ‒ Chaos Engineering erfordert einzigartige Fähigkeiten und Fachkenntnisse, die in Ihrem Unternehmen möglicherweise nicht ohne Weiteres verfügbar sind. Der Aufbau oder Erwerb dieses Fachwissens kann ein erhebliches Hindernis sein, insbesondere für Organisationen, die mit der Praxis noch nicht vertraut sind und über begrenzte Ressourcen verfügen.

Der Rest dieses Strategiedokuments wird sich hauptsächlich auf die zweite Herausforderung konzentrieren, die darin besteht, den geschäftlichen Nutzen von Chaos Engineering aufzuzeigen.

Die sich häufenden Auswirkungen von Chaos Engineering

Im Gegensatz zu herkömmlichen Technologieprojekten mit klar definierten Start- und Enddaten ist Chaos Engineering eine kontinuierliche Praxis des kontinuierlichen Lernens und der kontinuierlichen Verbesserung der Systemresistenz. Die Vorteile von Chaos Engineering nehmen im Laufe der Zeit zu.

In dem Maße, wie sich Systeme weiterentwickeln und immer komplexer werden, entstehen neue Ausfallarten. Es sind mehr Chaos-Experimente erforderlich, um potenzielle Probleme zu identifizieren. Die Behebung eines Problems kann Monate dauern, insbesondere in großen Unternehmen mit komplizierten Systemen und Prozessen oder wenn Fehler externen Dienstleistern zuzuschreiben sind.

Der kulturelle Wandel hin zur Nutzung von Misserfolgen als Chance zum Lernen und Verbessern nimmt im Laufe der Jahre zu und ist in der Organisation tief verwurzelt. Investitionen in die Automatisierung von Chaos-Engineering-Experimenten und die Entwicklung unterstützender Tools tragen weiterhin zur Rationalisierung und Verbesserung der Chaos-Engineering-Praxis bei. Der Aufbau dieses institutionellen Wissens und Verständnisses von Systemresistenz ist ein schrittweiser Prozess, der sich im Laufe der Zeit ansammelt. Das Wissen, die Prozesse und die Werkzeuge, die durch Chaos Engineering entwickelt wurden, gewinnen an Wert, wenn die Praxis mit den sich ständig weiterentwickelnden Systemen reift.

Das folgende Diagramm zeigt, wie der Wert im Laufe der Zeit steigt, wenn die Einführung von Chaos die folgenden Phasen durchläuft:

  • Erste Annahme

  • Lernen

  • Analyse des Fehlermodus

  • Einmalige Experimente

  • Periodisch GameDays

  • Kontinuierliches Experimentieren

Der Wert steigt zunächst allmählich und steigt nach einmaligen Experimenten schneller.

Wie in der Abbildung dargestellt, setzen die Vorteile von Chaos Engineering häufig ein, bevor ein Fehler in das System eindringt. Der Prozess der Planung und Gestaltung von Chaosexperimenten selbst bietet unmittelbaren Nutzen. Die Identifizierung potenzieller Ausfallszenarien, einzelner Fehlerquellen und unsicherer Bereiche im System führt zu Verbesserungen.

Beispielsweise hilft das Aufschreiben von Ausfallszenarien und die Erörterung der möglichen kaskadierenden Auswirkungen, ein Prozess, der als Fehlermodus- und Einflussanalyse (FMEA) bezeichnet wird, dabei, offensichtliche Schwächen oder Lücken aufzudecken, die möglicherweise übersehen wurden. Ihr Unternehmen kann diese Probleme proaktiv angehen, noch bevor das System vorsätzlichen Störungen ausgesetzt wird. Weitere Informationen finden Sie im Framework für die Resilienzanalyse.

Darüber hinaus bringt der verstärkte Fokus auf Systembeobachtbarkeit und -überwachung, der häufig mit Chaos-Engineering-Initiativen einhergeht, sofort Vorteile. Ein besserer Einblick in das Systemverhalten und die Ausfallarten hilft dem Team, die normalen Betriebsbedingungen des Systems besser zu verstehen. Ein besserer Einblick hilft dem Team auch zu verstehen, wie sich die Betriebsbedingungen verschlechtern, anpassen und versagen, wenn sie an ihre Grenzen stoßen.

Sowohl der Modus für einmaliges Experiment als auch der GameDay Modus für regelmäßige Experimente sind eher manuelle Ansätze als der Modus für kontinuierliche Experimente. Sie erfordern einen eher praxisnahen und explorativen Prozess, bei dem Ingenieure anhand ihrer Beobachtungen und Experimente aktiv Hypothesen formulieren und verfeinern.

Der Modus des kontinuierlichen Experimentierens ist dagegen stärker automatisiert. Dieser Modus konzentriert sich auf die kontrollierte und iterative Ausführung genehmigter und validierter Hypothesen. Er nutzt Automatisierung und Integration in den Entwicklungsprozess durch eine spezielle Chaos-Pipeline, um konsistente und wiederholbare Experimente zu gewährleisten.