OPS08-BP04 Erstellen umsetzbarer Warnmeldungen
Es ist entscheidend, Abweichungen im Verhalten Ihrer Anwendung umgehend zu erkennen und darauf zu reagieren. Besonders wichtig ist es, zu erkennen, wann die auf den wichtigsten Leistungsindikatoren (KPIs) basierenden Ergebnisse gefährdet sind oder unerwartete Anomalien auftreten. Wenn Sie Warnmeldungen auf KPIs basieren, stellen Sie dadurch sicher, dass die Signale, die Sie erhalten, direkt mit geschäftlichen oder betrieblichen Auswirkungen verknüpft sind. Der Ansatz mit umsetzbaren Warnmeldungen fördert proaktive Reaktionen und trägt zur Aufrechterhaltung der Systemleistung und Zuverlässigkeit bei.
Gewünschtes Ergebnis: Sie erhalten rechtzeitig relevante und umsetzbare Warnmeldungen, um potenzielle Probleme schnell zu erkennen und zu beheben, insbesondere wenn die KPI-Ergebnisse gefährdet sind.
Typische Anti-Muster:
-
Es werden zu viele unkritische Warnmeldungen eingerichtet, was zu einer Alarmmüdigkeit führt.
-
Warnmeldungen werden nicht anhand von KPIs priorisiert, was es schwierig macht, die geschäftlichen Auswirkungen von Problemen zu verstehen.
-
Die eigentlichen Ursachen werden vernachlässigt, was zu wiederholten Warnmeldungen für dasselbe Problem führt.
Vorteile der Nutzung dieser bewährten Methode:
-
Geringere Alarmermüdung durch Fokussierung auf umsetzbare und relevante Warnmeldungen.
-
Verbesserte Systemverfügbarkeit und -zuverlässigkeit durch proaktive Problemerkennung und -behebung.
-
Verbesserte Teamzusammenarbeit und schnellere Problemlösung durch die Integration in übliche Alarmierungs- und Kommunikationstools.
Risikostufe bei fehlender Befolgung dieser bewährten Methode: Hoch
Implementierungsleitfaden
Um einen effektiven Warnmechanismus zu schaffen, ist es wichtig, Metriken, Protokolle und Trace-Daten zu verwenden, die darauf hinweisen, wenn auf KPIs basierende Ergebnisse gefährdet sind oder Anomalien erkannt werden.
Implementierungsschritte
-
Festlegen der wichtigsten Leistungskennzahlen (KPIs): Identifizieren Sie die KPIs Ihrer Anwendung. Warnmeldungen sollten mit diesen KPIs verknüpft werden, damit sie die Auswirkungen auf das Unternehmen genau widerspiegeln.
-
Implementierung der Erkennung von Anomalien:
-
Verwenden von Amazon CloudWatch-Anomalieerkennung: Richten Sie die Amazon CloudWatch-Anomalieerkennung so ein, dass ungewöhnliche Muster automatisch erkannt werden. So werden nur Warnmeldungen für echte Anomalien generiert.
-
Nutzung von AWS X-Ray-Insights:
-
Richten Sie X-Ray-Insights ein, um Anomalien in Trace-Daten zu erkennen.
-
Konfigurieren Sie Benachrichtigungen für X-Ray-Insights, um bei erkannten Problemen gewarnt zu werden.
-
-
Integration mit Amazon DevOps Guru:
-
Nutzen Sie Amazon DevOps Guru
für seine Machine-Learning-Funktionen für die Erkennung betrieblicher Anomalien anhand vorhandener Daten. -
Navigieren Sie zu den Benachrichtigungseinstellungen in DevOps Guru, um Warnmeldungen über Anomalien einzurichten.
-
-
-
Implementieren umsetzbarer Warnmeldungen: Entwerfen Sie Warnmeldungen, die angemessene Informationen für sofortige Maßnahmen liefern.
-
Überwachen Sie AWS Health-Ereignisse mit Amazon-EventBridge-Regeln oder integrieren Sie sie programmatisch mit der AWS Health API, um Aktionen zu automatisieren, wenn Sie AWS Health-Ereignisse empfangen. Dies können allgemeine Aktionen sein, z. B. das Senden aller geplanten Lebenszyklus-Ereignisnachrichten an eine Chat-Oberfläche, oder spezifische Aktionen, wie das Initiieren eines Workflows in einem IT-Servicemanagement-Tool.
-
-
Verringern der Alarmmüdigkeit: Minimieren Sie die Zahl der Warnmeldungen, die nicht kritisch sind. Wenn Teams mit zahllosen unbedeutenden Warnmeldungen überfordert werden, können sie den Überblick über kritische Probleme verlieren, was die Gesamteffektivität des Warnmechanismus beeinträchtigt.
-
Einrichten zusammengesetzter Alarme: Verwenden Sie zusammengesetzte Alarme in Amazon CloudWatch
, um mehrere Alarme zu konsolidieren. -
Integration mit Warnmeldungs-Tools: Integrieren Sie Tools wie Ops Genie
und PagerDuty . -
Einbinden von AWS Chatbot: Integrieren Sie AWS Chatbot
, um Warnmeldungen an Amazon Chime, Microsoft Teams und Slack weiterzuleiten. -
Auf Protokollen basierende Warnungen: Verwenden Sie metrische Protokollfilter in CloudWatch, um Alarme auf der Grundlage bestimmter Protokollereignisse zu erstellen.
-
Überprüfen und wiederholen: Überprüfen und verfeinern Sie die Warnkonfigurationen regelmäßig.
Aufwand für den Implementierungsplan: Mittel
Ressourcen
Zugehörige bewährte Methoden:
Zugehörige Dokumente:
Zugehörige Videos:
Zugehörige Beispiele: