Fortgeschrittene Multi-AZ-Resilienzmuster

Datum der Veröffentlichung:11. Juli 2023(Dokumentversionen)

Viele Kunden führen ihre Workloads in hochverfügbaren Konfigurationen mit Multi-Availability Zone (AZ) aus. Diese Architekturen funktionieren gut bei binären Ausfällen, stoßen jedoch häufig auf Probleme mitgrauMisserfolge. Die Symptome dieser Art von Versagen können subtil sein und sich einer schnellen und eindeutigen Erkennung entziehen. Dieses Whitepaper enthält Anleitungen zur Instrumentierung von Workloads, um die Auswirkungen von Grauausfällen, die auf eine einzelne Availability Zone beschränkt sind, zu erkennen und dann Maßnahmen zu ergreifen, um diese Auswirkungen in der Availability Zone zu mindern.

Einführung

Dieses Dokument soll Ihnen helfen, belastbare Multi-AZ-Architekturen effektiver zu implementieren. Eine der besten Praktiken für den Aufbau widerstandsfähiger Systeme inVirtuelle private Cloud von Amazon(VPC-) Netzwerke sind fürjeden Workload auf mehrere Availability Zones verteilen.

EinVerfügbarkeitszoneist ein oder mehrere diskrete Rechenzentren mit redundanter Stromversorgung, Netzwerk und Konnektivität. Durch die Verwendung mehrerer Availability Zones können Sie Workloads betreiben, die höher verfügbar, fehlertoleranter und skalierbarer sind, als dies von einem einzelnen Rechenzentrum aus möglich wäre.

VieleAWSDienstleistungen, wieAutomatische Skalierung von Amazon Elastic Compute Cloud (EC2)oderAmazon Relational Database Service(Amazon RDS), stellen Sie eine Multi-AZ-Konfiguration bereit. Für diese Dienste müssen Sie keine zusätzlichen Observabilitäts- oder Failover-Tools entwickeln. Sie machen Workloads widerstandsfähig gegenüber leicht erkennbaren binären Fehlermodi innerhalb einerAWS-Regiondie sich auf eine einzelne Availability Zone auswirken. Dies kann ein vollständiger physischer Hardwarefehler, ein Stromausfall oder ein latenter Softwarefehler sein, der einen Großteil der Ressourcen betrifft.

Aber es gibt noch eine andere Kategorie von Fehlern, die alsgraue Ausfälle, deren Erscheinungsformen subtil sind und sich einer schnellen und eindeutigen Entdeckung entziehen. Dies wiederum führt zu längeren Zeiten, um die durch den Ausfall verursachten Auswirkungen zu mildern. Dieses Whitepaper konzentriert sich auf die Auswirkungen, die Grauausfälle auf Multi-AZ-Architekturen haben können, wie sie erkannt werden können und wie sie schließlich gemildert werden können.

Die in diesem Whitepaper enthaltenen Leitlinien beziehen sich hauptsächlich auf bestimmte Klassen von Workloads, die:

Verwenden Sie in erster Linie zonalAWSDienstleistungen
Die Widerstandsfähigkeit einer einzelnen Region muss verbessert werden
sind bereit, erhebliche Investitionen zu tätigen, um die erforderlichen Beobachtbarkeits- und Resilienzmuster zu entwickeln

Bei diesen Workloads sind Sie möglicherweise nicht bereit, einige oder alle der inReaktion auf Grauausfälle, oder haben nicht die Möglichkeit, mehrere Regionen zu verwenden. Diese Arten von Workloads stellen wahrscheinlich nur einen kleinen Teil Ihres Gesamtportfolios dar. Daher sollten diese Leitlinien auf Workload-Ebene und nicht auf Plattformebene betrachtet werden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Graue Fehler