PERF05-BP07 Regelmäßiges Überprüfen von Metriken
Überprüfen Sie im Rahmen der routinemäßigen Wartungsmaßnahme oder als Reaktion auf Ereignisse oder Vorfälle, welche Metriken erfasst werden. Ermitteln Sie anhand dieser Überprüfung, welche Metriken für die Behebung von Problemen wesentlich waren und welche zusätzlichen Metriekn, sofern nachverfolgt, helfen könnten, Probleme zu identifizieren, zu beheben oder zu verhindern.
Typische Anti-Muster:
-
Sie lassen zu, dass Metriken für einen längeren Zeitraum im Alarmstatus bleiben.
-
Sie erstellen Alarme, die von einem Automatisierungssystem nicht umsetzbar sind.
Vorteile der Nutzung dieser bewährten Methode: Überprüfen Sie kontinuierlich Metriken, die erfasst werden, um zu bestätigen, dass sie Probleme ordnungsgemäß identifizieren, beheben oder verhindern. Metriken können auch veralten, wenn sie für einen längeren Zeitraum im Alarmstatus bleiben.
Risikostufe bei fehlender Befolgung dieser bewährten Methode: Mittel
Implementierungsleitfaden
Verbessern Sie kontinuierlich die Erfassung und Überwachung von Metriken. Bewerten Sie beim Reagieren auf Vorfälle oder Ereignisse diejenigen Metriken, die hilfreich für die Behebung des Problems waren, und überlegen Sie, welche derzeit noch nicht verfolgten Metriken förderlich sein könnten. Verbessern Sie auf diese Weise die Qualität der erfassten Metriken, damit Sie zukünftige Probleme verhindern oder schneller beheben können.
Bewerten Sie beim Reagieren auf Vorfälle oder Ereignisse diejenigen Metriken, die hilfreich für die Behebung des Problems waren, und überlegen Sie, welche derzeit noch nicht verfolgten Metriken förderlich sein könnten. Verbessern Sie auf diese Weise die Qualität der erfassten Metriken, damit Sie zukünftige Probleme verhindern oder schneller beheben können.
Implementierungsschritte
-
Metriken definieren: Definieren Sie wichtige Leistungsmetriken zur Überwachung, die auf Ihr Workload-Ziel abgestimmt sind, einschließlich Metriken wie Reaktionszeit und Ressourcenauslastung.
-
Ausgangswert festlegen: Legen Sie für jede Metrik einen Ausgangswert und einen Zielwert fest. Der Ausgangswert sollte Referenzpunkte zur Identifizierung von Abweichungen oder Anomalien enthalten.
-
Takt festlegen: Legen Sie einen Takt zur Überprüfung wichtiger Kennzahlen fest (z. B. wöchentlich oder monatlich).
-
Leistungsprobleme identifizieren: Beurteilen Sie bei jeder Überprüfung Trends und Abweichungen von den Ausgangswerten. Suchen Sie nach Leistungsengpässen oder Anomalien. Führen Sie bei identifizierten Problemen eine eingehende Ursachenanalyse durch, um den Hauptgrund für das Problem zu ermitteln.
-
Korrekturmaßnahmen identifizieren: Identifizieren Sie Korrekturmaßnahmen mithilfe Ihrer Analysen. Dies kann die Parameteroptimierung, das Beheben von Fehlern und das Skalieren von Ressourcen beinhalten.
-
Ergebnisse dokumentieren: Dokumentieren Sie Ihre Erkenntnisse, einschließlich identifizierter Probleme, Ursachen und Korrekturmaßnahmen.
-
Iterieren und verbessern: Beurteilen und verbessern Sie kontinuierlich den Prozess zur Überprüfung der Metriken. Nutzen Sie die Erkenntnisse aus der vorherigen Überprüfung, um den Prozess im Laufe der Zeit zu verbessern.
Ressourcen
Zugehörige Dokumente:
Zugehörige Videos:
-
AWS re:Invent 2022 - Setting up controls at scale in your AWS environment
-
AWS re:Invent 2022 - How Amazon uses better metrics for improved website performance
-
AWS re:Invent 2023 - Building an effective observability strategy
-
AWS Summit SF 2022 - Full-stack observability and application monitoring with AWS
-
AWS re:Invent 2023 - Take a load off: Diagnose & resolve performance issues with Amazon RDS
Zugehörige Beispiele: