OPS08-BP04 Erstellen umsetzbarer Warnmeldungen - AWS Well-Architected Framework

OPS08-BP04 Erstellen umsetzbarer Warnmeldungen

Es ist entscheidend, Abweichungen im Verhalten Ihrer Anwendung umgehend zu erkennen und darauf zu reagieren. Besonders wichtig ist es, zu erkennen, wann die auf den wichtigsten Leistungsindikatoren (KPIs) basierenden Ergebnisse gefährdet sind oder unerwartete Anomalien auftreten. Wenn Sie Warnmeldungen auf KPIs basieren, stellen Sie dadurch sicher, dass die Signale, die Sie erhalten, direkt mit geschäftlichen oder betrieblichen Auswirkungen verknüpft sind. Der Ansatz mit umsetzbaren Warnmeldungen fördert proaktive Reaktionen und trägt zur Aufrechterhaltung der Systemleistung und Zuverlässigkeit bei.

Gewünschtes Ergebnis: Sie erhalten rechtzeitig relevante und umsetzbare Warnmeldungen, um potenzielle Probleme schnell zu erkennen und zu beheben, insbesondere wenn die KPI-Ergebnisse gefährdet sind.

Typische Anti-Muster:

  • Es werden zu viele unkritische Warnmeldungen eingerichtet, was zu einer Übermüdung durch Warnmeldungen führt.

  • Warnmeldungen werden nicht anhand von KPIs priorisiert, was es schwierig macht, die geschäftlichen Auswirkungen von Problemen zu verstehen.

  • Die eigentlichen Ursachen werden vernachlässigt, was zu wiederholten Warnmeldungen für dasselbe Problem führt.

Vorteile der Nutzung dieser bewährten Methode:

  • Geringere Ermüdung durch Warnmeldungen durch Fokussierung auf umsetzbare und relevante Warnmeldungen.

  • Verbesserte Systemverfügbarkeit und -zuverlässigkeit durch proaktive Problemerkennung und -behebung.

  • Verbesserte Teamzusammenarbeit und schnellere Problemlösung durch die Integration in übliche Warnmeldungs- und Kommunikationstools.

Risikostufe, wenn diese bewährte Methode nicht eingeführt wird: hoch

Implementierungsleitfaden

Um einen effektiven Warnmechanismus zu schaffen, ist es wichtig, Metriken, Protokolle und Trace-Daten zu verwenden, die darauf hinweisen, wenn auf KPIs basierende Ergebnisse gefährdet sind oder Anomalien erkannt werden.

Implementierungsschritte

  1. Ermitteln von Key Performance Indicators (KPIs): Identifizieren Sie die KPIs Ihrer Anwendung. Warnmeldungen sollten mit diesen KPIs verknüpft werden, damit sie die Auswirkungen auf das Unternehmen genau widerspiegeln.

  2. Implementierung der Erkennung von Anomalien:

    • Verwendung der Amazon CloudWatch-Anomalieerkennung: Richten Sie die Amazon CloudWatch-Anomalieerkennung ein, um ungewöhnliche Muster automatisch zu erkennen, damit Warnmeldungen nur für echte Anomalien generieren werden.

    • Nutzung von AWS X-Ray Insights:

      1. Richten Sie X-Ray Insights ein, um Anomalien in Trace-Daten zu erkennen.

      2. Konfigurieren Sie Benachrichtigungen für X-Ray Insights, um bei erkannten Problemen Warnmeldungen zu erhalten.

    • Integration mit Amazon DevOps Guru:

      1. Nutzung von Amazon DevOps Guru für die Machine-Learning-Fähigkeiten bei der Erkennung betrieblicher Anomalien anhand vorhandener Daten.

      2. Navigieren Sie zu den Benachrichtigungseinstellungen unter DevOps Guru, um Anomaliewarnmeldungen einzurichten.

  3. Implementieren umsetzbarer Warnmeldungen: Entwerfen Sie Warnmeldungen, die angemessene Informationen für sofortige Maßnahmen enthalten.

    1. Überwachen Sie AWS Health-Ereignisse mithilfe von Amazon EventBridge-Regeln oder integrieren Sie sie programmgesteuert in die AWS Health API, um Aktionen zu automatisieren, wenn Sie AWS Health-Ereignisse erhalten. Dies können allgemeine Aktionen sein, z. B. das Senden aller geplanten Lebenszyklus-Ereignisnachrichten an eine Chat-Oberfläche, oder spezifische Aktionen, wie das Initiieren eines Workflows in einem IT-Servicemanagement-Tool.

  4. Reduzieren der Warnmeldungsmüdigkeit: Minimieren Sie unkritische Warnmeldungen. Wenn Teams mit zahllosen unbedeutenden Warnmeldungen überfordert werden, können sie den Überblick über kritische Probleme verlieren, was die Gesamteffektivität des Warnmechanismus beeinträchtigt.

  5. Einrichten von zusammengesetzten Alarmen: Verwenden Sie zusammengesetzte Amazon CloudWatch-Alarme, um mehrere Alarme zu kombinieren.

  6. Integrieren von Warnmeldungs-Tools: Integrieren Sie Tools wie Ops Genie und PagerDuty.

  7. Nutzung von AWS Chatbot: Integrieren Sie AWS Chatbot, um Warnmeldungen an Amazon Chime, Microsoft Teams und Slack weiterzuleiten.

  8. Warnmeldung basierend auf Protokollen: Verwenden Sie Protokoll-Metrikfilter in CloudWatch, um Alarme basierend auf bestimmten Protokollereignissen zu erstellen.

  9. Überprüfen und iterieren: Überprüfen und Sie die Warnkonfigurationen regelmäßig und passen Sie sie an.

Aufwand für den Implementierungsplan: mittel

Ressourcen

Zugehörige bewährte Methoden:

Zugehörige Dokumente:

Zugehörige Videos:

Zugehörige Beispiele: