Servicelevel-Ziele (SLOs) - Amazon CloudWatch

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Servicelevel-Ziele (SLOs)

Application Signals befindet sich in der Vorschauversion. Wenn Sie Feedback zu dieser Funktion haben, können Sie uns unter app-signals-feedback@amazon .com kontaktieren.

Sie können Application Signals verwenden, um Servicelevel-Ziele für die Services für Ihre kritischen Geschäftsabläufe zu erstellen. Wenn Sie SLOs für diese Dienste erstellen, können Sie sie im SLO-Dashboard verfolgen, sodass Sie einen at-a-glance Überblick über Ihre wichtigsten Abläufe haben.

Neben der Erstellung einer Schnellansicht, in der sich Ihre Mitarbeiter über den aktuellen Status kritischer Vorgänge informieren können, können Sie mit Hilfe von SLOs auch die längerfristige Leistung Ihrer Services verfolgen, um sicherzustellen, dass sie Ihren Erwartungen entsprechen. Wenn Sie Service Level Agreements mit Kunden abgeschlossen haben, sind SLOs ein hervorragendes Instrument, um sicherzustellen, dass diese eingehalten werden.

Die Bewertung des Zustands Ihrer Services mithilfe von SLOs beginnt mit der Festlegung klarer, messbarer Ziele auf der Grundlage wichtiger Leistungsmetriken – Servicelevel-Indikator (SLIs). Mit einem SLO wird die SLI-Leistung anhand des von Ihnen festgelegten Schwellenwerts und Ziels verglichen und es wird gemeldet, wie weit oder wie nahe Ihre Anwendungsleistung am Schwellenwert liegt.

Application Signals hilft Ihnen dabei, SLOs für Ihre wichtigsten Leistungsmetriken festzulegen. Application Signals erfasst automatisch Latency- und Availability-Metriken für jeden Service und Vorgang, den es entdeckt, und diese Metriken eignen sich oft ideal für die Verwendung als SLIs. Mit dem Assistenten zur SLO-Erstellung können Sie diese Metriken für Ihre SLOs verwenden. Anschließend können Sie den Status all Ihrer SLOs mit den Dashboards von Application Signals verfolgen.

Sie können SLOs für bestimmte Vorgänge einrichten, die Ihr Service aufruft oder verwendet. Zusätzlich zu den Metriken und können Sie jede beliebige CloudWatch Metrik oder jeden metrischen Ausdruck als SLI verwenden. Latency Availability

Die Erstellung von SLOs ist sehr wichtig, um den größtmöglichen Nutzen aus CloudWatch Application Signals zu ziehen. Nachdem Sie SLOs erstellt haben, können Sie ihren Status in der Application Signals Console einsehen, um schnell zu sehen, welche Ihrer kritischen Services und Vorgänge gut funktionieren und welche nicht. Die Tatsache, dass SLOs nachverfolgt werden können, bietet die folgenden großen Vorteile:

  • Es ist für Ihre Servicebetreiber einfacher, den aktuellen Betriebsstatus kritischer Services, gemessen am SLI, zu ermitteln. Auf diese Weise können sie schnell fehlerhafte Services und Betriebsabläufe untersuchen und identifizieren.

  • Sie können Ihre Serviceleistung anhand messbarer Geschäftsziele über längere Zeiträume hinweg verfolgen.

Indem Sie entscheiden, worauf Sie SLOs setzen möchten, priorisieren Sie das, was für Sie wichtig ist. Die Dashboards von Application Signals enthalten automatisch Informationen darüber, was Sie priorisiert haben.

Wenn Sie ein SLO erstellen, können Sie sich auch dafür entscheiden, gleichzeitig CloudWatch Alarme zu erstellen, um die SLOs zu überwachen. Sie können Alarme einrichten, die sowohl auf Überschreitungen des Schwellenwerts als auch auf Warnstufen achten. Diese Alarme können Sie automatisch benachrichtigen, wenn die SLO-Metriken den von Ihnen festgelegten Schwellenwert überschreiten oder wenn sie sich einem Warnschwellenwert nähern. Wenn sich ein SLO beispielsweise seinem Warnschwellenwert nähert, können Sie darüber informiert werden, dass Ihr Team möglicherweise die Kundenabwanderung in der Anwendung verlangsamen muss, um sicherzustellen, dass die langfristigen Leistungsziele erreicht werden.

SLO-Konzepte

Ein SLO-Konzept enthält die folgenden Komponenten:

  • Ein Servicelevel-Indikator (SLI), bei dem es sich um eine wichtige Leistungsmetrik handelt, die Sie angeben. Der SLI stellt das gewünschte Leistungsniveau für Ihre Anwendung dar. Application Signals erfasst automatisch die wichtigen Latency- und Availability-Metriken für jeden Service und Vorgang, den es entdeckt, und diese Metriken eignen sich oft ideal für die Verwendung mit SLOs.

    Sie wählen den Schwellenwert, den Sie für Ihr SLI verwenden möchten. Zum Beispiel 200 ms für die Latenz.

  • Ein Ziel oder Erreichungsziel. Dabei handelt es sich um den Prozentsatz der Zeit, in der der SLI den Schwellenwert voraussichtlich in jedem Zeitintervall erreicht. Die Zeitintervalle können so kurz wie Stunden oder so lang wie ein Jahr sein.

    Intervalle können entweder Kalenderintervalle oder fortlaufende Intervalle sein.

    • Kalenderintervalle werden auf den Kalender abgestimmt, z. B. ein SLO, das pro Monat erfasst wird. CloudWatch passt die Zahlen für Gesundheit, Budget und Leistungsstand automatisch an die Anzahl der Tage in einem Monat an. Kalenderintervalle eignen sich besser für Geschäftsziele, die kalendergerecht gemessen werden.

    • Rollende Intervalle werden fortlaufend berechnet. Rollende Intervalle eignen sich besser, um das aktuelle Benutzererlebnis Ihrer Anwendung nachzuverfolgen.

  • Der Zeitraum ist kürzer, und viele Zeiträume bilden ein Intervall. Die Leistung der Anwendung wird in jedem Zeitraum innerhalb des Intervalls mit der SLI verglichen. Für jeden Zeitraum wird festgestellt, ob die Anwendung entweder die erforderliche Leistung erreicht hat oder nicht.

Ein Ziel von 99 % bei einem Kalenderintervall von einem Tag und einem Zeitraum von 1 Minute bedeutet beispielsweise, dass die Anwendung die Erfolgsschwelle in 99 % der Zeiträume von 1 Minute am Tag erreichen oder erreichen muss. Ist dies der Fall, ist der SLO für diesen Tag erfüllt. Der nächste Tag ist ein neues Bewertungsintervall, und die Anwendung muss während 99 % der Zeiträume von 1 Minute am zweiten Tag die Erfolgsschwelle erreichen oder erreichen, um den SLO für diesen zweiten Tag zu erfüllen.

Ein SLI kann auf einer der neuen Standard-Anwendungsmetriken basieren, die von Application Signals erfasst wurden. Alternativ kann es sich um eine beliebige CloudWatch Metrik oder einen beliebigen metrischen Ausdruck handeln. Die Standard-Anwendungsmetriken, die Sie für eine SLI verwenden können, sind Latency und Availability. Availability stellt die erfolgreichen Antworten geteilt durch die Gesamtzahl der Anfragen dar. Sie wird als (1 - Störungsrate)*100 berechnet, wobei es sich bei Fehlerantworten um 5xx-Fehler handelt. Erfolgsantworten sind Antworten ohne 5XX-Fehler. 4XX-Antworten werden als erfolgreich behandelt.

Anmerkung

Derzeit werden nur zeitraumbasierte Berechnungen unterstützt. Unterstützung für volumen- oder anforderungsbasierten Berechnungen ist für zukünftige Versionen geplant.

Fehlerbudget und Erreichung berechnen

Wenn Sie Informationen zu einem SLO anzeigen, sehen Sie dessen aktuellen Zustand und sein Fehlerbudget. Das Fehlerbudget gibt an, wie lange innerhalb des Intervalls der Schwellenwert überschritten werden kann, wobei der SLO aber trotzdem eingehalten werden kann. Das Gesamtfehlerbudget ist die Gesamtdauer der Sicherheitsverletzung, die während des gesamten Intervalls toleriert werden kann. Das verbleibende Fehlerbudget ist die verbleibende Dauer der Sicherheitsverletzung, die im aktuellen Intervall toleriert werden kann. Dies ist der Fall, nachdem die bereits eingetretene Zeit für Verstöße vom Gesamtfehlerbudget abgezogen wurde.

Die folgende Abbildung veranschaulicht die Konzepte für das Erreichungs- und das Fehlerbudget für ein Ziel mit einem Intervall von 30 Tagen, Zeiträumen von 1 Minute und einer Zielerreichung von 99 %. 30 Tage beinhalten 43 200 Zeiträume von einer Minute. 99 % von 43 200 entsprechen 42 768 Minuten im Monat, sodass 42 768 Minuten im Monat einwandfrei sein müssen, damit der SLO eingehalten werden kann. Bisher waren 130 der 1-Minuten-Zeiträume im aktuellen Intervall fehlerbehaftet.

Den Erfolg innerhalb der einzelnen Zeiträumen ermitteln

Innerhalb jedes Zeitraums werden die SLI-Daten auf der Grundlage der für den SLI verwendeten Statistik zu einem einzigen Datenpunkt zusammengefasst. Dieser Datenpunkt stellt die gesamte Länge des Zeitraums dar. Dieser einzelne Datenpunkt wird mit dem SLI-Schwellenwert verglichen, um festzustellen, ob der Zeitraum fehlerfrei ist. Wenn Sie auf dem Dashboard fehlerhafte Perioden während des aktuellen Zeitraums sehen, können Ihre Servicemitarbeiter darauf aufmerksam gemacht werden, dass der Service untersucht werden muss.

Wenn festgestellt wird, dass der Zeitraum fehlerhaft ist, wird die gesamte Dauer des Zeitraums im Fehlerbudget als fehlerhaft gewertet. Wenn Sie das Fehlerbudget verfolgen, können Sie feststellen, ob der Service über einen längeren Zeitraum die von Ihnen gewünschte Leistung erzielt.

Ein SLO erstellen

Wir empfehlen, dass Sie für Ihre kritischen Anwendungen sowohl Latenz- als auch Verfügbarkeits-SLOs festlegen. Diese von Application Signals gesammelten Metriken entsprechen den gemeinsamen Geschäftszielen.

Sie können SLOs auch für jede CloudWatch Metrik oder jeden metrischen mathematischen Ausdruck festlegen, der zu einer einzigen Zeitreihe führt.

Wenn Sie zum ersten Mal ein SLO in Ihrem Konto erstellen, CloudWatch wird automatisch die AWSServiceRoleForCloudWatchApplicationSignalsserviceverknüpfte Rolle in Ihrem Konto erstellt, sofern sie noch nicht vorhanden ist. Diese dienstbezogene Rolle ermöglicht CloudWatch das Sammeln von CloudWatch Logdaten, X-Ray-Trace-Daten, CloudWatch Metrikdaten und Tagging-Daten von Anwendungen in Ihrem Konto. Weitere Informationen zu CloudWatch dienstbezogenen Rollen finden Sie unter. Verwenden von serviceverknüpften Rollen für CloudWatch

So erstellen Sie ein SLO
  1. Öffnen Sie die CloudWatch Konsole unter https://console.aws.amazon.com/cloudwatch/.

  2. Wählen Sie im Navigationsbereich Servicelevel-Ziele (SLO).

  3. Wählen Sie SLO erstellen.

  4. Geben Sie einen Namen für das SLO ein. Wenn Sie den Namen eines Services oder Vorgangs zusammen mit entsprechenden Schlüsselwörtern wie Latenz oder Verfügbarkeit angeben, können Sie bei der Untersuchung schnell erkennen, was der SLO-Status bedeutet.

  5. Führen Sie für Servicelevel-Indikator (SLI) festlegen einen der folgenden Schritte aus:

    • Um das SLO auf eine der Standard-Anwendungsmetriken Latency oder Availability festzulegen:

      1. Wählen Sie Service-Vorgang.

      2. Wählen Sie den Service aus, den dieses SLO überwachen soll.

      3. Wählen Sie den Vorgang aus, den dieses SLO überwachen soll.

        Die Dropdown-Menüs Service auswählen und Vorgang auswählen werden mit Services und Vorgängen gefüllt, die in den letzten 24 Stunden aktiv waren.

      4. Wählen Sie entweder Verfügbarkeit oder Latenz und legen Sie dann den Schwellenwert fest.

    • Um den SLO für eine beliebige CloudWatch Metrik oder einen CloudWatch metrischen mathematischen Ausdruck festzulegen:

      1. Wählen Sie CloudWatch Metrisch.

      2. Wählen Sie CloudWatch Metrik auswählen.

        Der Bildschirm Metrik auswählen wird angezeigt. Verwenden Sie die Registerkarten Durchsuchen oder Abfragen, um die gewünschte Metrik zu finden, oder erstellen Sie einen mathematischen Ausdruck für die Metrik.

        Nachdem Sie die gewünschte Metrik ausgewählt haben, wählen Sie die Registerkarte Graphische Metriken und dann die Statistik und den Zeitraum aus, die für das SLO verwendet werden sollen. Wählen Sie dann Select Metric (Metrik auswählen) aus.

        Weitere Informationen zu diesen Bildschirmen finden Sie unter Grafisches Darstellen von Metriken und Fügen Sie einem CloudWatch Diagramm einen mathematischen Ausdruck hinzu.

      3. Wählen Sie unter Bedingung festlegen einen Vergleichsoperator und einen Schwellenwert aus, den das SLO als Erfolgsindikator verwenden soll.

  6. Wenn Sie in Schritt 5 Service-Vorgang ausgewählt haben, können Sie optional Zusätzliche Einstellungen auswählen und dann die Länge des Zeitraums für dieses SLO anpassen.

  7. Legen Sie das Intervall und das Erreichungsziel für das SLO fest. Weitere Informationen zu Intervallen und Erreichungszielen sowie zu deren Zusammenspiel finden Sie unter SLO-Konzepte.

  8. (Optional) Legen Sie einen oder mehrere CloudWatch Alarme oder einen Warnschwellenwert für den SLO fest.

    1. CloudWatch Alarme können Amazon SNS verwenden, um Sie proaktiv zu benachrichtigen, wenn eine Anwendung aufgrund ihrer SLI-Leistung fehlerhaft ist.

      Um einen Alarm zu erstellen, wählen Sie eines der Alarm-Kontrollkästchen aus und geben Sie das Amazon-SNS-Thema ein – oder erstellen Sie eines – welches für Benachrichtigungen verwendet werden soll, wenn der Alarm in den ALARM-Status wechselt. Weitere Informationen zu CloudWatch Alarmen finden Sie unter. CloudWatch Amazon-Alarme verwenden Für die Erstellung von Alarmen fallen Gebühren an. Weitere Informationen zur CloudWatch Preisgestaltung finden Sie unter CloudWatch Amazon-Preise.

    2. Wenn Sie einen Warnschwellenwert festlegen, wird dieser auf den Bildschirmen von Application Signals angezeigt und hilft Ihnen dabei, SLOs zu identifizieren, bei denen die Gefahr besteht, dass sie nicht erfüllt werden, auch wenn sie derzeit fehlerfrei sind.

      Um einen Warnschwellenwert festzulegen, geben Sie den Schwellenwert im Feld Warnschwellenwert ein. Wenn das Fehlerbudget des SLO unter dem Warnschwellenwert liegt, wird das SLO auf mehreren Bildschirmen von Application Signals mit Warnung gekennzeichnet. Warnschwellenwerte werden auch in den Grafiken zum Fehlerbudget angezeigt. Sie können auch einen SLO-Warnalarm erstellen, der auf dem Warnschwellenwert basiert.

  9. Um diesem SLO Tags hinzuzufügen, wählen Sie die Registerkarte Tags und dann Neues Tag hinzufügen. Mit Tags können Sie Ressourcen verwalten, identifizieren, organisieren, suchen und filtern. Weitere Informationen über das Markieren finden Sie unter Markieren Ihrer AWS -Ressourcen.

    Anmerkung

    Wenn die Anwendung, auf die sich dieses SLO bezieht, registriert ist AWS Service Catalog AppRegistry, können Sie das awsApplication Tag verwenden, um dieses SLO dieser Anwendung zuzuordnen AppRegistry. Weitere Informationen finden Sie unter Was ist AppRegistry?

  10. Wählen Sie SLO erstellen. Wenn Sie sich außerdem dafür entscheiden, einen oder mehrere Alarme zu erstellen, ändert sich der Name der Schaltfläche entsprechend.

SLO-Status anzeigen und untersuchen

Mithilfe der Service Level Objectives oder der Services-Optionen in der CloudWatch Konsole können Sie sich schnell einen Überblick über den Zustand Ihrer SLOs verschaffen. Die Ansicht „Dienste“ bietet einen at-a-glance Überblick über das Verhältnis fehlerhafter Dienste, das auf der Grundlage der von Ihnen festgelegten SLOs berechnet wird. Weitere Informationen zur Verwendung der Services-Option finden Sie unter Den Betriebsstatus Ihrer Anwendungen mit Application Signals überwachen.

Die Ansicht Servicelevel-Ziele bietet eine übergeordnete Ansicht Ihrer Organisation. Sie können die erfüllten und nicht erfüllten SLOs als Ganzes sehen. Auf diese Weise erhalten Sie einen Überblick darüber, wie viele Ihrer Services und Abläufe gemäß den von Ihnen ausgewählten SLIs über längere Zeiträume Ihren Erwartungen entsprechen.

So zeigen Sie alle SLOs in der Servicelevel-Ziele-Ansicht an
  1. Öffnen Sie die CloudWatch Konsole unter https://console.aws.amazon.com/cloudwatch/.

  2. Wählen Sie im Navigationsbereich Servicelevel-Ziele (SLO).

    Die Liste der Servicelevel-Ziele (SLO) wird angezeigt.

    In der SLI-Status-Spalte können Sie schnell den aktuellen Status Ihrer SLOs einsehen. Um die SLOs so zu sortieren, dass alle fehlerhaften SLOs ganz oben in der Liste stehen, wählen Sie die SLI-Status-Spalte aus, bis alle fehlerhaften SLOs ganz oben stehen.

    Die SLO-Tabelle hat die folgenden standardmäßigen Spalten. Sie können anpassen, welche Spalten angezeigt werden, indem Sie das Zahnradsymbol über der Liste auswählen. Weitere Informationen zu Zielen, SLIs, erreichten Zielen und Intervallen finden Sie unter SLO-Konzepte.

    • Der Name des SLO.

    • In der Ziel-Spalte wird der Prozentsatz der Zeiträume in jedem Intervall angezeigt, bei denen der SLI-Schwellenwert erfolgreich erreicht werden muss, damit das SLO-Ziel erreicht wird. Außerdem wird die Intervall-Länge für das SLO angezeigt.

    • Der SLI-Status zeigt an, ob der aktuelle Betriebsstatus der Anwendung fehlerfrei ist oder nicht. Wenn ein Zeitraum innerhalb des aktuell ausgewählten Zeitraums für das SLO fehlerhaft war, wird der SLI-Status als Fehlerhaft angezeigt.

    • Das Endziel ist das Erreichungsniveau, das am Ende des ausgewählten Zeitraums erreicht wurde. Sortieren Sie nach dieser Spalte, um die SLOs zu finden, bei denen die Gefahr am größten ist, dass sie nicht eingehalten werden.

    • Das Erreichungs-Delta ist der Unterschied in der Leistungsstufe zwischen dem Beginn und dem Ende des ausgewählten Zeitraums. Ein negatives Delta bedeutet, dass die Metrik nach unten tendiert. Sortieren Sie nach dieser Spalte, um die neuesten Trends der SLOs zu sehen.

    • Das Budget für Endfehler (%) ist der Prozentsatz der Gesamtzeit in dem Zeitraum, in dem es zu fehlerhaften Zeiträumen kommen kann und das SLO trotzdem erfolgreich erreicht werden kann. Wenn Sie diesen Wert auf 5 % setzen und der SLI in 5 % oder weniger der verbleibenden Zeiträumen des Intervalls fehlerhaft ist, wird das SLO trotzdem erfolgreich erreicht.

    • Das Fehlerbudget-Delta ist die Differenz im Fehlerbudget zwischen dem Start und dem Ende des ausgewählten Zeitraums. Ein negatives Delta bedeutet, dass die Metrik nach unten tendiert.

    • Beim Endfehlerbudget (Zeit) handelt es sich um die tatsächliche Zeit innerhalb des Intervalls, die fehlerhaft sein kann, während das SLO trotzdem erfolgreich erreicht werden muss. Wenn dieser Wert beispielsweise 14 Minuten beträgt und der SLI während des verbleibenden Intervalls weniger als 14 Minuten fehlerhaft ist, wird das SLO trotzdem erfolgreich erreicht.

    • In den Spalten Service, Vorgang und Typ werden Informationen darüber angezeigt, für welchen Service und welchen Betrieb dieses SLO eingerichtet ist.

  3. Aktivieren Sie das Optionsfeld neben dem SLO-Namen, um die Budgets für Erreichen und Fehler für ein SLO anzuzeigen.

    Die Grafiken oben auf der Seite zeigen den Budgetstatus des SLO-Erreichens und des Fehlerbudgets. Ein Diagramm über die SLI-Metrik, die diesem SLO zugeordnet ist, wird ebenfalls angezeigt.

  4. Um ein SLO, das sein Ziel nicht erreicht, genauer zu untersuchen, wählen Sie den Service- oder Vorgangsnamen, der diesem SLO zugeordnet ist. Sie werden auf die Detailseite weitergeleitet, auf der Sie eine weitere Auswahl vornehmen können. Weitere Informationen finden Sie unter Auf der Seite mit den Servicedetails können Sie detaillierte Serviceaktivitäten und den Betriebsstatus anzeigen.

  5. Um den Zeitraum der Diagramme und Tabellen auf der Seite zu ändern, wählen Sie oben auf dem Bildschirm einen neuen Zeitraum aus.

Ein vorhandenes SLO bearbeiten

Gehen Sie folgendermaßen vor, um eine bestehende SLO zu bearbeiten. Wenn Sie ein SLO bearbeiten, können Sie nur den Schwellenwert, das Intervall, das Erreichungsziel und die Tags ändern. Um andere Aspekte wie Service, Betrieb oder Metrik zu ändern, erstellen Sie ein neues SLO, anstatt ein vorhandenes zu bearbeiten.

Wenn Sie einen Teil einer SLO-Kernkonfiguration ändern, z. B. einen Zeitraum oder einen Schwellenwert, werden alle vorherigen Datenpunkte und Bewertungen in Bezug auf Leistung und Zustand ungültig. Das SLO wird effektiv gelöscht und neu erstellt.

Anmerkung

Wenn Sie ein SLO bearbeiten, werden die mit diesem SLO verknüpften Alarme nicht automatisch aktualisiert. Möglicherweise müssen Sie die Alarme aktualisieren, damit sie mit dem SLO synchron bleiben.

So bearbeiten Sie ein vorhandenes SLO
  1. Öffnen Sie die CloudWatch Konsole unter https://console.aws.amazon.com/cloudwatch/.

  2. Wählen Sie im Navigationsbereich Servicelevel-Ziele (SLO).

  3. Aktivieren Sie das Optionsfeld neben dem SLO, das Sie bearbeiten möchten, und wählen Sie Aktionen, SLO bearbeiten aus.

  4. Nehmen Sie die gewünschten Änderungen vor und wählen Sie dann Änderungen speichern.

Ein SLO löschen

Gehen Sie folgendermaßen vor, um ein bestehendes SLO zu löschen.

Anmerkung

Wenn Sie ein SLO löschen, werden die mit diesem SLO verknüpften Alarme nicht automatisch gelöscht. Sie müssen sie selbst löschen. Weitere Informationen finden Sie unter Verwalten von Alarmen.

So löschen Sie ein SLO
  1. Öffnen Sie die CloudWatch Konsole unter https://console.aws.amazon.com/cloudwatch/.

  2. Wählen Sie im Navigationsbereich Servicelevel-Ziele (SLO).

  3. Aktivieren Sie das Optionsfeld neben dem SLO, das Sie bearbeiten möchten, und wählen Sie Aktionen, SLO löschen aus.

  4. Wählen Sie Bestätigen aus.