Verfügbarkeit verstehen - Verfügbarkeit und mehr: Verständnis und Verbesserung der Widerstandsfähigkeit verteilter Systeme auf AWS

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verfügbarkeit verstehen

Verfügbarkeit ist eine der wichtigsten Methoden, mit denen wir die Ausfallsicherheit quantitativ messen können. Wir definieren Verfügbarkeit, A, als den Prozentsatz der Zeit, in der ein Workload zur Nutzung verfügbar ist. Es ist ein Verhältnis der erwarteten „Verfügbarkeit“ (Verfügbarkeit) zur gemessenen Gesamtzeit (der erwarteten „Betriebszeit“ plus der erwarteten „Ausfallzeit“).

Bild der Gleichung. A = Verfügbarkeit/(Betriebszeit + Ausfallzeit)

Gleichung 1 — Verfügbarkeit

Um diese Formel besser zu verstehen, schauen wir uns an, wie Verfügbarkeit und Ausfallzeit gemessen werden können. Zunächst möchten wir wissen, wie lange der Workload fehlerfrei sein wird. Das nennen wir MTBF (Mean Time Between Failure). Dabei handelt es sich um die durchschnittliche Zeit zwischen der Aufnahme des Normalbetriebs eines Workloads und seinem nächsten Ausfall. Dann möchten wir wissen, wie lange die Wiederherstellung nach einem Ausfall dauern wird.

Wir nennen das Mean Time to Repair (or Recovery) (MTTR). Dabei handelt es sich um einen Zeitraum, in dem der Workload nicht verfügbar ist, während das ausgefallene Subsystem repariert oder wieder in Betrieb genommen wird. Ein wichtiger Zeitraum in der MTTR ist die mittlere Zeit bis zur Erkennung (MTTD), also die Zeitspanne zwischen dem Auftreten eines Fehlers und dem Beginn der Reparaturvorgänge. Das folgende Diagramm zeigt, wie all diese Metriken zusammenhängen.

Diagramm, das die Beziehung zwischen MTTD, MTTR und MTBF zeigt

Die Beziehung zwischen MTTD, MTTR und MTBF

Somit können wir die Verfügbarkeit A mithilfe von MTBF, der Zeit, zu der die Arbeitslast hoch ist, und MTTR, der Zeitpunkt, zu dem die Arbeitslast ausgefallen ist, ausdrücken.

Bild der Gleichung. A = MTBF/(MTBF + MTTR)

Gleichung 2 — Beziehung zwischen MTBF und MTTR

Und die Wahrscheinlichkeit, dass die Arbeitslast „ausgefallen“ ist (d. h. nicht verfügbar), ist die Ausfallwahrscheinlichkeit F.

Bild der Gleichung. F = 1 - A

Gleichung 3 - Ausfallwahrscheinlichkeit

Zuverlässigkeit ist die Fähigkeit eines Workloads, auf Anfrage innerhalb der angegebenen Reaktionszeit das Richtige zu tun. Das ist es, was Verfügbarkeit misst. Wenn ein Workload seltener ausfällt (längere MTBF) oder eine kürzere Reparaturzeit (kürzere MTTR) hat, verbessert sich die Verfügbarkeit.

Regel 1

Weniger häufige Ausfälle (längere MTBF), kürzere Fehlererkennungszeiten (kürzere MTTD) und kürzere Reparaturzeiten (kürzere MTTR) sind die drei Faktoren, die zur Verbesserung der Verfügbarkeit in verteilten Systemen verwendet werden.