Einführung
Ihr Workload muss seine vorgesehenen Funktionen korrekt und konsistent ausführen. Um dies zu erreichen, müssen Sie eine Resilienz-Architektur entwickeln. Resilienz ist die Fähigkeit eines Workloads, sich von Infrastruktur- oder Service-Störungen zu erholen, dynamisch Datenverarbeitungsressourcen zu nutzen, um die Nachfrage zu bewältigen, und Störungen wie Fehlkonfigurationen oder vorübergehende Netzwerkprobleme abzumildern.
Die Notfallwiederherstellung (Disaster Recovery, DR) ist ein wichtiger Bestandteil Ihrer Resilienz-Strategie und betrifft die Reaktion Ihres Workloads auf eine Katastrophe (eine Katastrophe ist ein Ereignis, das schwerwiegende negative Auswirkungen auf Ihr Geschäft hat). Diese Reaktion muss auf den Geschäftszielen Ihres Unternehmens basieren, die die Strategie Ihres Workloads zur Vermeidung von Datenverlusten (Recovery Point Objective (RPO)) und zur Reduzierung der Ausfallzeiten, in denen Ihr Workload nicht zur Verfügung steht (Recovery Time Objective (RTO)) definieren. Sie müssen daher bei der Entwicklung Ihrer Workloads in der Cloud eine Ausfallsicherheit implementieren, um Ihre Wiederherstellungsziele (RPO und RTO) für ein bestimmtes einmaliges Katastrophenereignis zu erreichen. Dieser Ansatz hilft Ihrem Unternehmen bei der Aufrechterhaltung der Geschäftskontinuität im Rahmen des Betriebskontinuitätsplans (BCP).
In diesem Dokument geht es darum, wie Sie Architekturen auf AWS planen, entwerfen und implementieren, die die Ziele der Notfallwiederherstellung für Ihr Unternehmen erfüllen. Die hier vermittelten Informationen richten sich an Personen in technischen Funktionen, wie Chief Technology Officers (CTOs), Architekten, Entwickler und Mitglieder des Betriebsteams.
Notfallwiederherstellung und Verfügbarkeit
Die Notfallwiederherstellung kann mit der Verfügbarkeit verglichen werden, die eine weitere wichtige Komponente Ihrer Resilienz-Strategie ist. Während bei der Notfallwiederherstellung Ziele für einmalige Ereignisse erfasst werden, messen Verfügbarkeitsziele Durchschnittswerte über einen bestimmten Zeitraum.
Abbildung 1 - Resilienz-Ziel
Die Verfügbarkeit wird anhand der Werte Mean Time Between Failures (MTBF) und Mean Time to Recover (MTTR) berechnet:
Dieser Ansatz wird oft als "nines" bezeichnet, wobei ein Verfügbarkeitsziel von 99,9 % als "three nines" bezeichnet wird.
Unter Umständen ist es für einen Workload einfacher, erfolgreiche und fehlgeschlagene Anfragen zu zählen, anstatt einen zeitbasierten Ansatz zu verwenden. In diesem Fall kann die folgende Berechnung verwendet werden:
Die Notfallwiederherstellung konzentriert sich auf Katastrophenereignisse, während sich die Verfügbarkeit auf häufigere Unterbrechungen kleineren Ausmaßes wie Komponentenausfälle, Netzwerkprobleme und Lastspitzen konzentriert. Das Ziel der Notfallwiederherstellung ist die Aufrechterhaltung des Geschäftsbetriebs, während es bei der Verfügbarkeit darum geht, die Zeit zu maximieren, in der ein Workload für die Ausführung der vorgesehenen Geschäftsfunktionen zur Verfügung steht. Beide sollten Teil Ihrer Resilienz-Strategie sein.