AWS Resilience Hub Konzepte - AWS Zentrum für Resilienz

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

AWS Resilience Hub Konzepte

Diese Konzepte können Ihnen helfen, den Ansatz AWS Resilience Hub von zu verstehen, mit dem Sie die Ausfallsicherheit von Anwendungen verbessern und Anwendungsausfälle verhindern können.

Ausfallsicherheit

Die Fähigkeit, die Verfügbarkeit aufrechtzuerhalten und die Wiederherstellung nach Software- und Betriebsunterbrechungen innerhalb eines festgelegten Zeitrahmens zu gewährleisten.

Ziel des Wiederherstellungspunkts (RPO)

Die maximal zulässige Zeitspanne seit dem letzten Datenwiederherstellungspunkt. Damit wird festgelegt, was als akzeptabler Datenverlust zwischen dem letzten Wiederherstellungspunkt und der Serviceunterbrechung gilt.

Ziel für die Wiederherstellungszeit (RTO)

Die maximal zulässige Verzögerung zwischen der Betriebsunterbrechung und der Wiederherstellung des Dienstes. Damit wird festgelegt, was als akzeptables Zeitfenster gilt, wenn der Service nicht verfügbar ist.

Voraussichtliches Ziel für die Wiederherstellung der Arbeitslast

Das geschätzte Ziel für die Workload-Wiederherstellungszeit (geschätzte ArbeitslastRTO) ist RTO das Ziel, das Ihre Anwendung auf der Grundlage der importierten Anwendungsdefinition voraussichtlich erreichen wird. Führen Sie anschließend eine Bewertung durch.

Voraussichtlicher Zielwert für die Wiederherstellung der Arbeitslast

Das geschätzte Ziel des Workload-Wiederherstellungspunkts (geschätzte ArbeitslastRPO) ist RPO das Ziel, das Ihre Anwendung auf der Grundlage der importierten Anwendungsdefinition voraussichtlich erreichen wird. Anschließend wird eine Bewertung durchgeführt.

Anwendung

Eine AWS Resilience Hub Anwendung ist eine Sammlung AWS unterstützter Ressourcen, die kontinuierlich überwacht und bewertet werden, um ihre Ausfallsicherheit zu gewährleisten.

Anwendungskomponente

Eine Gruppe verwandter AWS Ressourcen, die als eine Einheit funktionieren und ausfallen. Wenn Sie beispielsweise über eine Primär- und eine Replikatdatenbank verfügen, gehören beide Datenbanken zu derselben Anwendungskomponente (AppComponent).

AWS Resilience Hub bestimmt, welche AWS Ressourcen zu welchem Typ gehören können. AppComponent Zum Beispiel DBInstance kann a gehören, AWS::ResilienceHub::DatabaseAppComponent aber nicht zuAWS::ResilienceHub::ComputeAppComponent.

Konformitätsstatus der Anwendung

AWS Resilience Hub meldet die folgenden Konformitätsstatustypen für Ihre Anwendungen.

Richtlinie erfüllt

Es wird davon ausgegangen, dass der Antrag die in der Richtlinie festgelegten RPO Ziele erfüllt. RTO Alle seine Bestandteile entsprechen den definierten politischen Zielen. Sie haben beispielsweise ein RTO RPO Ziel von 24 Stunden für Störungen in allen AWS Regionen ausgewählt. AWS Resilience Hub kann sehen, dass Ihre Backups in Ihre Fallback-Region kopiert wurden. Es wird weiterhin von Ihnen erwartet, dass Sie die Wiederherstellung nach einem Backup nach der Standardprozedur (SOP) durchführen und diese auch testen und zeitlich festlegen. Dies ist in den Betriebsempfehlungen enthalten und Teil Ihres allgemeinen Resilienz-Scores.

Richtlinie verletzt

Es konnte nicht davon ausgegangen werden, dass der Antrag die RTO in der Richtlinie festgelegten RPO Ziele erfüllt. Einer oder mehrere davon entsprechen AppComponents nicht den politischen Zielen. Sie haben beispielsweise ein RTO RPO Ziel von 24 Stunden für Unterbrechungen in allen AWS Regionen ausgewählt, aber Ihre Datenbankkonfiguration beinhaltet keine regionsübergreifende Wiederherstellungsmethode, wie z. B. eine globale Replikation und Backup-Kopien.

Nicht bewertet

Der Antrag erfordert eine Bewertung. Es wird derzeit nicht bewertet oder verfolgt.

Es wurden Änderungen festgestellt

Es gibt eine neue veröffentlichte Version der Anwendung, die noch nicht bewertet wurde.

Erkennung von Abweichungen

AWS Resilience Hub führt während der Durchführung einer Bewertung Ihrer Anwendung eine Drift-Benachrichtigung durch, um zu überprüfen, ob sich die Änderungen an den AppComponent Konfigurationen auf den Konformitätsstatus Ihrer Anwendung ausgewirkt haben. Darüber hinaus werden Änderungen wie das Hinzufügen oder Löschen von Ressourcen in den Eingabequellen der Anwendung überprüft und erkannt und darüber informiert. Zum Vergleich AWS Resilience Hub wird die vorherige Bewertung verwendet, bei der die Anwendungskomponente die Richtlinie erfüllte. AWS Resilience Hub erkennt die folgenden Arten von Abweichungen:

  • Abweichung von der Anwendungsrichtlinie — Bei dieser Abweichung werden alle Personen identifiziert AppComponents , die die Richtlinie in der vorherigen Bewertung erfüllten, in der aktuellen Bewertung jedoch nicht eingehalten haben.

  • Drift bei Anwendungsressourcen — Dieser Drift-Typ identifiziert alle Drift-Ressourcen in der aktuellen Anwendungsversion.

Bewertung der Resilienz

AWS Resilience Hub verwendet eine Liste von Lücken und möglichen Abhilfemaßnahmen, um die Wirksamkeit einer ausgewählten Strategie zur Wiederherstellung und Fortführung nach einer Katastrophe zu messen. Dabei wird der Konformitätsstatus jeder Anwendungskomponente oder Anwendung anhand der Richtlinie bewertet. Dieser Bericht enthält Empfehlungen zur Kostenoptimierung und Hinweise auf mögliche Probleme.

Bewertung der Resilienz

AWS Resilience Hub generiert eine Bewertung, die angibt, wie genau Ihre Anwendung unseren Empfehlungen zur Einhaltung der Stabilitätsrichtlinien, Alarme, Standardarbeitsanweisungen (SOPs) und Tests für die Anwendung entspricht.

Art der Störung

AWS Resilience Hub hilft Ihnen bei der Bewertung der Widerstandsfähigkeit gegen die folgenden Arten von Ausfällen:

Anwendung

Die Infrastruktur ist intakt, aber die Anwendung oder der Software-Stack funktioniert nicht wie gewünscht. Dies kann nach der Bereitstellung von neuem Code, Konfigurationsänderungen, Datenbeschädigung oder Fehlfunktionen nachgelagerter Abhängigkeiten auftreten.

Cloud-Infrastruktur

Die Cloud-Infrastruktur funktioniert aufgrund eines Ausfalls nicht wie erwartet. Ein Ausfall kann aufgrund eines lokalen Fehlers in einer oder mehreren Komponenten auftreten. In den meisten Fällen wird diese Art von Ausfall durch einen Neustart, Recycling oder erneutes Laden der fehlerhaften Komponenten behoben.

Unterbrechung der Cloud-Infrastruktur

Eine oder mehrere Availability Zones sind nicht verfügbar. Diese Art von Ausfall kann behoben werden, indem zu einer anderen Availability Zone gewechselt wird.

Vorfall in der Cloud-Infrastrukturregion

Eine oder mehrere Regionen sind nicht verfügbar. Diese Art von Vorfall kann behoben werden, indem Sie zu einer anderen wechseln AWS-Region.

Experimente zur Fehlerinjektion

AWS Resilience Hub empfiehlt Tests zur Überprüfung der Widerstandsfähigkeit von Anwendungen gegenüber verschiedenen Arten von Ausfällen. Zu diesen Ausfällen gehören Anwendungen, Infrastruktur, Availability Zones (AZ) oder AWS-Region Vorfälle von Anwendungskomponenten.

Mit diesen Experimenten können Sie Folgendes tun:

  • Injizieren Sie einen Fehler.

  • Stellen Sie sicher, dass Alarme einen Ausfall erkennen können.

  • Stellen Sie sicher, dass die Wiederherstellungsverfahren oder Standardarbeitsanweisungen (SOPs) ordnungsgemäß funktionieren, um die Anwendung nach dem Ausfall wiederherzustellen.

Tests zur SOPs Messung der geschätzten Arbeitslast RTO und der geschätzten ArbeitslastRPO. Sie können verschiedene Anwendungskonfigurationen testen und messen, ob die Ergebnisse RTO den in Ihrer Richtlinie definierten Zielen entsprechen. RPO

SOP

Bei einer SOP Standardarbeitsanweisung () handelt es sich um eine Reihe von Schritten, mit denen Sie Ihre Anwendung bei einem Ausfall oder einem Alarm effizient wiederherstellen können. Auf der Grundlage der Anwendungsbeurteilung AWS Resilience Hub empfiehlt es eine Reihe von Maßnahmen, SOPs und es wird empfohlen, diese SOPs im Vorfeld einer Unterbrechung vorzubereiten, zu testen und zu messen, um eine zeitnahe Wiederherstellung zu gewährleisten.