OPS10-BP01 Verwenden eines Prozesses für die Bewältigung von Ereignissen, Vorfällen und Problemen - AWS Well-Architected Framework

OPS10-BP01 Verwenden eines Prozesses für die Bewältigung von Ereignissen, Vorfällen und Problemen

Die Fähigkeit, Ereignisse, Vorfälle und Probleme effizient zu verwalten, ist der Schlüssel zur Aufrechterhaltung der Workload und der Leistung. Es ist wichtig, die Unterschiede zwischen diesen Elementen zu erkennen und zu verstehen, um eine effektive Reaktions- und Lösungsstrategie zu entwickeln. Die Einrichtung und Einhaltung eines klar definierten Prozesses für jeden Aspekt hilft Ihrem Team, alle auftretenden betrieblichen Herausforderungen schnell und effektiv zu bewältigen.

Gewünschtes Ergebnis: Ihr Unternehmen verwaltet betriebliche Ereignisse, Vorfälle und Probleme effektiv durch gut dokumentierte und zentral gespeicherte Prozesse. Diese Prozesse werden ständig aktualisiert, um Änderungen zu berücksichtigen, die Handhabung zu optimieren und eine hohe Servicezuverlässlichkeit und Workload-Leistung aufrechtzuerhalten.

Typische Anti-Muster:

  • Sie reagieren eher reaktiv als proaktiv auf Ereignisse.

  • Bei verschiedenen Arten von Ereignissen oder Vorfällen werden inkonsistente Ansätze verfolgt.

  • Ihr Unternehmen analysiert keine Vorfälle und lernt nicht aus ihnen, um zukünftige Vorfälle zu verhindern.

Vorteile der Nutzung dieser bewährten Methode:

  • optimierte und standardisierte Reaktionsprozesse

  • geringere Auswirkungen von Vorfällen auf Services und Kunden

  • beschleunigte Problemlösung

  • kontinuierliche Verbesserung der betrieblichen Abläufe

Risikostufe bei fehlender Befolgung dieser bewährten Methode: Hoch

Implementierungsleitfaden

Wenn Sie diese bewährte Methode implementieren, bedeutet dies, dass Sie Workload-Ereignisse nachverfolgen. Sie haben Prozesse für den Umgang mit Vorfällen und Problemen. Die Prozesse werden dokumentiert, geteilt und oft aktualisiert. Die Probleme werden identifiziert, priorisiert und behoben.

Verstehen von Ereignissen, Vorfällen und Problemen

  • Ereignisse: Bei einem Ereignis handelt es sich um eine Beobachtung einer Aktion, eines Vorkommens oder einer Statusänderung. Ereignisse können geplant oder ungeplant sein und sie können intern oder extern zur Workload entstehen.

  • Vorfälle: Vorfälle sind Ereignisse, die eine Reaktion erfordern, wie ungeplante Unterbrechungen oder Beeinträchtigungen der Servicequalität. Sie stellen Störungen dar, die sofortige Aufmerksamkeit erfordern, um den normalen Workload-Betrieb wiederherzustellen.

  • Probleme: Probleme sind die zugrundeliegenden Ursachen für einen oder mehrere Vorfälle. Bei der Identifizierung und Lösung von Problemen geht es darum, den Vorfällen auf den Grund zu gehen, um zukünftige Vorfälle zu verhindern.

Implementierungsschritte

Ereignisse

  1. Überwachen von Ereignissen:

  2. Erstellen von Prozessen:

    • Entwickeln Sie ein Verfahren zur Bewertung, welche Ereignisse signifikant sind und überwacht werden müssen. Dies beinhaltet die Festlegung von Schwellenwerten und Parametern für normale und abnormale Aktivitäten.

    • Legen Sie Kriterien für die Eskalation eines Ereignisses in Bezug auf einen Vorfall fest. Dies kann auf Grundlage des Schweregrads, der Auswirkungen auf die Benutzer oder der Abweichung vom erwarteten Verhalten erfolgen.

    • Überprüfen Sie regelmäßig die Prozesse zur Überwachung und Reaktion auf Ereignisse. Dazu gehören die Analyse früherer Vorfälle, die Anpassung von Schwellenwerten und die Verfeinerung von Warnmechanismen.

Vorfälle

  1. Reaktion auf Vorfälle:

    • Nutzen Sie die Erkenntnisse aus den Tools zur Beobachtbarkeit, um Vorfälle schnell zu erkennen und darauf zu reagieren.

    • Implementieren Sie AWS Systems Manager Ops Center, um betriebliche Aufgaben und Vorfälle zu sammeln, zu organisieren und zu priorisieren.

    • Nutzen Sie Services wie Amazon CloudWatch und AWS X-Ray für eingehendere Analysen und Problembehebungen.

    • Ziehen Sie AWS Managed Services (AMS) für ein verbessertes Vorfallmanagement in Betracht, indem Sie die proaktiven, präventiven und detektivischen Fähigkeiten nutzen. AMS erweitert den betrieblichen Support um Services wie Überwachung, Vorfallserkennung und -reaktion sowie Sicherheitsmanagement.

    • Kunden von Enterprise Support können AWS-Vorfallerkennung und -reaktion verwenden, wodurch eine kontinuierliche proaktive Überwachung und ein Vorfallmanagement für Produktions-Workloads ermöglicht wird.

  2. Erstellen eines Vorfallmanagementprozesses:

    • Richten Sie einen strukturierten Vorfallmanagementprozess ein, der klare Rollen, Kommunikationsprotokolle und Lösungsschritte umfasst.

    • Integrieren Sie das Vorfallmanagement mit Tools wie AWS Chatbot für eine effiziente Reaktion und Koordination.

    • Kategorisieren Sie Vorfälle nach Schweregrad mit vordefinierten Vorfallreaktionsplänen für jede Kategorie.

  3. Lernen und Verbessern:

    • Führen Sie Analysen nach Vorfällen aus, um die Grundursachen und die Effektivität der Lösung zu verstehen.

    • Aktualisieren und verbessern Sie die Reaktionspläne kontinuierlich auf Grundlage von Überprüfungen und sich entwickelnden Praktiken.

    • Dokumentieren Sie die gewonnenen Erkenntnisse und geben Sie sie an andere Teams weiter, um die betriebliche Widerstandsfähigkeit zu verbessern.

    • Kunden mit Enterprise Support können den Workshop zum Vorfallmanagement bei ihrem Technical Account Manager anfordern. Dieser angeleitete Workshop testet Ihren vorhandenen Reaktionsplan für Vorfälle und hilft Ihnen, Verbesserungsmöglichkeiten zu identifizieren.

Problems (Probleme)

  1. Identifizieren von Problemen:

    • Verwenden Sie Daten aus früheren Vorfällen, um wiederkehrende Muster zu erkennen, die auf tiefere systemische Probleme hinweisen könnten.

    • Nutzen Sie Tools wie AWS CloudTrail und Amazon CloudWatch, um Trends zu analysieren und grundlegende Probleme aufzudecken.

    • Binden Sie funktionsübergreifende Teams ein, einschließlich Betriebs-, Entwicklungs- und Geschäftsbereiche, um unterschiedliche Sichtweisen auf die Grundursachen zu gewinnen.

  2. Erstellen eines Problemmanagementprozesses:

    • Entwickeln Sie einen strukturierten Prozess für das Problemmanagement, der sich auf langfristige Lösungen statt auf schnelle Lösungen konzentriert.

    • Integrieren Sie Techniken zur Ursachenanalyse, um die zugrunde liegenden Ursachen von Vorfällen zu untersuchen und zu verstehen.

    • Aktualisieren Sie Betriebsrichtlinien, Verfahren und Infrastruktur auf Grundlage der Erkenntnisse, um Wiederholungen zu verhindern.

  3. Kontinuierliche Verbesserungen:

    • Fördern Sie eine Kultur des ständigen Lernens und der Verbesserung und ermutigen Sie Ihre Teams, potenzielle Probleme proaktiv zu erkennen und anzugehen.

    • Überprüfen und überarbeiten Sie regelmäßig die Problemmanagementprozesse und -tools, um sie an die sich entwickelnde Geschäfts- und Technologielandschaft anzupassen.

    • Tauschen Sie Erkenntnisse und bewährte Methoden innerhalb des Unternehmens aus, um eine widerstandsfähigere und effizientere Betriebsumgebung zu schaffen.

  4. Einsatz von AWS Support:

    • Nutzen Sie AWS-Support-Ressourcen, z. B. AWS Trusted Advisor, für proaktive Anleitungen und Optimierungsempfehlungen.

    • Kunden von Enterprise Support können auf spezielle Programme wie AWS Countdown zugreifen, um bei kritischen Ereignissen Unterstützung zu erhalten.

Aufwand für den Implementierungsplan: Mittel

Ressourcen

Zugehörige bewährte Methoden:

Zugehörige Dokumente:

Zugehörige Videos:

Zugehörige Beispiele:

Zugehörige Services: