REL13-BP01 Definieren von Wiederherstellungszielen bei Ausfällen und Datenverlusten - AWS Well-Architected Framework

REL13-BP01 Definieren von Wiederherstellungszielen bei Ausfällen und Datenverlusten

Für die Workload gelten ein Recovery Time Objective (RTO, Wiederherstellungsdauer) und ein Recovery Point Objective (RPO, Wiederherstellungszeitpunkt).

Das Recovery Time Objective (RTO) ist die maximal zulässige Verzögerung zwischen der Unterbrechung und der Wiederherstellung des Services. Damit wird festgelegt, was als akzeptables Zeitfenster gilt, wenn der Service nicht verfügbar ist.

Das Recovery Point Objective (RPO) ist die maximal zulässige Zeitspanne seit dem letzten Datenwiederherstellungspunkt. Damit wird festgelegt, was als akzeptabler Datenverlust zwischen dem letzten Wiederherstellungspunkt und der Serviceunterbrechung gilt.

RTO- und RPO-Werte sind wichtige Überlegungen bei der Auswahl einer geeigneten Strategie zur Notfallwiederherstellung (Disaster Recovery, DR) für Ihre Workload. Diese Ziele werden vom Unternehmen festgelegt und dann von den technischen Teams verwendet, um eine DR-Strategie auszuwählen und umzusetzen.

Gewünschtes Ergebnis: 

Jeder Workload ist ein RTO und ein RPO zugewiesen, die auf der Grundlage der Auswirkungen auf das Unternehmen definiert werden. Die Workload wird einer vordefinierten Stufe zugewiesen, die die Serviceverfügbarkeit und den akzeptablen Datenverlust definiert – mit einem zugehörigen RTO und RPO. Falls eine solche Staffelung nicht möglich ist, kann eine individuelle Zuweisung pro Workload durchgeführt werden – mit der Absicht, Stufen zu einem späteren Zeitpunkt zu erstellen. RTO und RPO zählen zu den wichtigsten Überlegungen bei der Auswahl einer Implementierung einer Strategie zur Notfallwiederherstellung für die Workload. Zusätzliche Überlegungen bei der Auswahl einer solchen Strategie sind Kostenbeschränkungen, Workload-Abhängigkeiten und betriebliche Anforderungen.

Ermitteln Sie für das RTO die Auswirkungen anhand der Dauer eines Ausfalls. Sind sie linear oder gibt es nichtlineare Auswirkungen? (Beispiel: Nach vier Stunden schalten Sie eine Fertigungslinie bis zum Beginn der nächsten Schicht ab).

Eine Matrix der Notfallwiederherstellung wie die folgende kann Ihnen helfen zu verstehen, wie die Kritikalität der Workload mit den Wiederherstellungszielen zusammenhängt. (Beachten Sie, dass die tatsächlichen Werte für die X- und Y-Achsen an die Bedürfnisse Ihres Unternehmens angepasst werden sollten).

Diagramm mit der Matrix der Notfallwiederherstellung

Abbildung 16: Matrix der Notfallwiederherstellung

Typische Anti-Muster:

  • Keine definierten Wiederherstellungsziele.

  • Auswählen beliebiger Wiederherstellungsziele.

  • Auswählen von Wiederherstellungszielen, die nicht strikt genug sind und die Geschäftsziele nicht erfüllen.

  • Mangelndes Verständnis für die Auswirkungen von Ausfallzeiten und Datenverlusten.

  • Auswahl unrealistischer Wiederherstellungsziele (z. B. unverzügliche Wiederherstellung und kein Datenverlust), die für Ihre Workload-Konfiguration möglicherweise nicht erreichbar sind.

  • Auswählen von Wiederherstellungszielen, die strikter sind als die tatsächlichen Geschäftsziele. Dies erzwingt Implementierungen für die Notfallwiederherstellung, die kostspieliger und komplizierter sind als die Anforderungen der Workload.

  • Auswahl von Wiederherstellungszielen, die nicht mit denen einer abhängigen Workload vereinbar sind.

  • Ihre Wiederherstellungsziele berücksichtigen nicht die Einhaltung gesetzlicher Vorschriften.

  • RTO und RPO wurden für eine Workload definiert, aber nie getestet.

Vorteile der Nutzung dieser bewährten Methode: Die Wiederherstellungsziele für Dauer und Datenverlust sind als Orientierungshilfe für die Implementierung der Notfallwiederherstellung erforderlich.

Risikostufe, wenn diese bewährte Methode nicht eingeführt wird: Hoch

Implementierungsleitfaden

Sie müssen für die jeweilige Workload die Auswirkungen von Ausfallzeiten und Datenverlusten auf Ihr Unternehmen verstehen. Die Auswirkungen werden im Allgemeinen umso größer, je länger die Ausfallzeiten bzw. je größer der Datenverlust ist, aber die Form dieser Zunahme kann je nach Art der Workload unterschiedlich sein. Beispielsweise kann es sein, dass Sie Ausfallzeiten von bis zu einer Stunde mit geringen Auswirkungen tolerieren können, die Auswirkungen aber danach schnell zunehmen. Die Auswirkungen auf das Unternehmen zeigen sich auf vielerlei Art, etwa in Form von Kosten (z. B. Umsatzeinbußen), Kundenvertrauen (und Auswirkungen auf den Ruf), betrieblichen Problemen (z. B. verspätete Auszahlung von Gehältern oder verringerte Produktivität) und regulatorischen Risiken. Gehen Sie wie folgt vor, um sich mit diesen Auswirkungen vertraut zu machen, und richten Sie RTO und RPO entsprechend Ihrer Workload ein.

Implementierungsschritte

  1. Ermitteln Sie die Stakeholder für diese Workload in Ihrem Unternehmen und setzen Sie sich mit ihnen in Verbindung, um diese Schritte umzusetzen. Die Wiederherstellungsziele für eine Workload sind eine Geschäftsentscheidung. Technische Teams arbeiten dann mit Stakeholdern im Unternehmen zusammen, um anhand dieser Ziele eine DR-Strategie auszuwählen.

    Anmerkung

    Für die Schritte 2 und 3 können Sie das Arbeitsblatt zur Implementierung verwenden.

  2. Sammeln Sie die erforderlichen Informationen, um eine Entscheidung zu treffen, indem Sie die folgenden Fragen beantworten.

  3. Gibt es Kategorien oder Stufen der Kritikalität für die Workload-Auswirkungen in Ihrem Unternehmen?

    1. Falls ja, weisen Sie diese Workload einer Kategorie zu.

    2. Falls nein, legen Sie diese Kategorien fest. Erstellen Sie bis zu fünf Kategorien und verfeinern Sie den Bereich Ihres RTO für jede Kategorie. Zu den Beispielkategorien gehören „Kritisch“, „Hoch“, „Mittel“ und „Niedrig“. Um zu verstehen, wie Workloads Kategorien zugeordnet werden, sollten Sie sich überlegen, ob die Workload geschäftskritisch, wichtig für das Unternehmen oder für den Geschäftserfolg nicht maßgeblich ist.

    3. Legen Sie RTO und RPO für Workloads basierend auf der Kategorie fest. Wählen Sie immer eine Kategorie, die strenger ist (niedrigeres RTO und RPO) als die in diesem Schritt berechneten Rohwerte. Wenn sich der Wert dadurch zu stark ändert, sollten Sie erwägen, eine neue Kategorie zu erstellen.

  4. Weisen Sie der Workload auf der Grundlage dieser Antworten RTO- und RPO-Werte zu. Dies kann direkt oder durch Zuweisen der Workload zu einer vordefinierten Serviceebene erfolgen.

  5. Dokumentieren Sie den Notfallwiederherstellungsplan für diese Workload, der Teil des Geschäftsfortführungsplans Ihres Unternehmens ist, an einem Ort, der für das Workload-Team und die Stakeholder zugänglich ist

    1. Erfassen Sie RTO und RPO sowie die Informationen, die zur Bestimmung dieser Werte verwendet wurden. Beziehen Sie auch die Strategie ein, die zur Bewertung der Auswirkungen der Workload auf das Unternehmen verwendet wurde

    2. Erfassen Sie neben RTO und RPO noch weitere Kennzahlen, die Sie zum Zweck der Notfallwiederherstellung verfolgen oder zukünftig verfolgen möchten

    3. Fügen Sie diesem Plan bei der Erstellung Einzelheiten zu Ihrer DR-Strategie und Ihrem Runbook hinzu.

  6. Wenn Sie die Kritikalität der Workload in einer Matrix wie der in Abbildung 15 nachschlagen, können Sie damit beginnen, vordefinierte Serviceebenen festzulegen, die für Ihr Unternehmen definiert sind.

  7. Nachdem Sie eine DR-Strategie (oder einen Machbarkeitsnachweis für eine DR-Strategie) gemäß REL13-BP02 Verwenden von definierten Wiederherstellungsstrategien, um die Wiederherstellungsziele zu erreichen implementiert haben, testen Sie diese Strategie, um die tatsächliche Workload, RTC (Recovery Time Capability) und RPC (Recovery Point Capability) zu ermitteln. Wenn diese nicht die angestrebten Wiederherstellungsziele erfüllen, passen Sie diese Ziele entweder gemeinsam mit Stakeholdern in Ihrem Unternehmen an oder nehmen Sie Änderungen an der DR-Strategie vornehmen, um die Zielvorgaben zu erreichen.

Primäre Fragen

  1. Wie lange kann die Workload maximal ausfallen, bevor dies schwerwiegende Auswirkungen auf das Unternehmen hat?

    1. Ermitteln Sie die Kosten (direkte finanzielle Auswirkungen) für das Unternehmen pro Minute, in der die Workload unterbrochen ist.

    2. Bedenken Sie, dass die Auswirkungen nicht immer linear sind. Die Auswirkungen können zunächst begrenzt sein und dann nach einem kritischen Zeitpunkt rasch zunehmen.

  2. Wie viele Daten können maximal verlorengehen, bevor dies schwerwiegende Auswirkungen auf das Unternehmen hat?

    1. Ziehen Sie diesen Wert für Ihren wichtigsten Datenspeicher in Betracht. Identifizieren Sie die jeweilige Kritikalität für andere Datenspeicher.

    2. Können Workload-Daten wiederhergestellt werden, wenn sie verloren gehen? Wenn dies aus betrieblicher Sicht einfacher ist als die Sicherung und Wiederherstellung, wählen Sie RPO auf der Grundlage der Kritikalität der Quelldaten, die zur Wiederherstellung der Workload-Daten verwendet werden.

  3. Was sind die Wiederherstellungsziele und Verfügbarkeitserwartungen für Workloads, von denen diese Workload abhängt (Downstream), bzw. für Workloads, die von dieser Workload abhängen (Upstream)?

    1. Wählen Sie Wiederherstellungsziele, die es ermöglichen, dass diese Workload die Anforderungen der Upstream-Abhängigkeiten erfüllt.

    2. Wählen Sie Wiederherstellungsziele, die angesichts der Wiederherstellungsfunktionen von Downstream-Abhängigkeiten erreichbar sind. Nichtkritische Downstream-Abhängigkeiten (solche, die Sie umgehen können) können ausgeschlossen werden. Oder arbeiten Sie mit kritischen Downstream-Abhängigkeiten zusammen, um ihre Wiederherstellungsfunktionen bei Bedarf zu verbessern.

Zusätzliche Fragen

Denken Sie über diese Fragen nach und überlegen Sie, wie sie sich auf diese Workload auswirken können:

  1. Haben Sie je nach Art des Ausfalls (Region im Vergleich zu AZ usw.) unterschiedliche RTOs und RPOs festgelegt?

  2. Gibt es einen bestimmten Zeitpunkt (Saisonalität, Verkaufsveranstaltungen, Produkteinführungen), zu dem sich Ihr RTO/RPO ändern kann? Falls ja, was sind die unterschiedlichen Mess- und zeitlichen Beschränkungen?

  3. Wie viele Kunden sind betroffen, wenn die Workload unterbrochen wird?

  4. Wie wirkt sich eine Unterbrechung der Workload auf den Ruf aus?

  5. Welche anderen betrieblichen Auswirkungen können auftreten, wenn die Workload unterbrochen wird? Zum Beispiel Auswirkungen auf die Produktivität der Mitarbeiter, wenn E-Mail-Systeme nicht verfügbar sind oder wenn die Gehaltsabrechnungssysteme keine Transaktionen einreichen können.

  6. Wie passen RTO und RPO für die Workload zur DR-Strategie des Geschäftsbereichs und der Organisation?

  7. Gibt es interne vertragliche Verpflichtungen zur Erbringung eines Services? Gibt es Strafen für die Nichteinhaltung?

  8. Welche regulatorischen oder behördlichen Auflagen gelten im Zusammenhang mit den Daten?

Arbeitsblatt zur Implementierung

Sie können dieses Arbeitsblatt für die Implementierungsschritte 2 und 3 verwenden. Sie können dieses Arbeitsblatt an Ihre spezifischen Bedürfnisse anpassen, indem Sie beispielsweise zusätzliche Fragen hinzufügen.

Arbeitsblatt

Arbeitsblatt

Aufwand für den Implementierungsplan: Niedrig

Ressourcen

Zugehörige bewährte Methoden:

Zugehörige Dokumente:

Zugehörige Videos: