OPS04-BP02 Implementieren einer Anwendungstelemetrie
Anwendungstelemetrie dient als Grundlage für die Beobachtbarkeit Ihres Workloads. Die ausgegebene Telemetrie muss unbedingt umsetzbare Erkenntnisse zum Status Ihrer Anwendung und zum Erreichen sowohl technischer als auch geschäftlicher Ergebnisse liefern. Ob es um Fehlerbehebung, die Messung der Auswirkungen einer neuen Funktion oder die zuverlässige Ausrichtung auf wichtige Leistungsindikatoren (KPIs) geht – Anwendungstelemetrie liefert Informationen darüber, wie Sie Ihre Workload aufbauen, betreiben und weiterentwickeln können.
Metriken, Protokolle und Traces bilden die drei wichtigsten Säulen der Beobachtbarkeit. Sie dienen als Diagnosetools, die den Status Ihrer Anwendung beschreiben. Im Laufe der Zeit helfen sie bei der Erstellung von Baselines und der Identifizierung von Anomalien. Um sicherzustellen, dass die Überwachungsaktivitäten und die Geschäftsziele aufeinander abgestimmt sind, ist jedoch die Definition und Überwachung von wichtigen Key Performance Indicators (KPIs) entscheidend. Oft ist es leichter, Probleme anhand von Geschäfts-KPIs zu identifizieren als nur anhand von technischen Metriken.
Andere Telemetriearten, wie Real User Monitoring (RUM) und synthetische Transaktionen, ergänzen diese primären Datenquellen. RUM liefert Echtzeit-Erkenntnisse zu Benutzerinteraktionen, während synthetische Transaktionen potenzielles Benutzerverhalten simulieren und so helfen, Engpässe zu erkennen, bevor echte Benutzer darauf stoßen.
Gewünschtes Ergebnis: Sie erzielen umsetzbare Erkenntnisse zur Leistung Ihres Workloads. Diese Erkenntnisse ermöglichen es Ihnen, proaktive Entscheidungen zur Leistungsoptimierung zu treffen, eine höhere Workload-Stabilität zu erreichen, CI/CD-Prozesse zu rationalisieren und Ressourcen effektiv zu nutzen.
Typische Anti-Muster:
-
Unvollständige Beobachtbarkeit: Wenn die Beobachtbarkeit nicht auf jeder Ebene der Workload berücksichtigt wird, führt dies zu blinden Flecken, die wichtige Erkenntnisse über Systemleistung und Verhalten verschleiern können.
-
Fragmentierte Datenansicht: Wenn Daten über mehrere Tools und Systeme verteilt sind, wird es schwierig, einen ganzheitlichen Überblick über den Zustand und die Leistung Ihrer Workloads zu behalten.
-
Von Benutzern gemeldete Probleme: Ein Zeichen dafür, dass eine proaktive Problemerkennung durch Telemetrie und Überwachung von Geschäfts-KPIs fehlt.
Vorteile der Nutzung dieser bewährten Methode:
-
Fundierte Entscheidungen: Mit Erkenntnissen aus Telemetrie und Geschäfts-KPIs können Sie datengestützte Entscheidungen treffen.
-
Verbesserte betriebliche Effizienz: Datengesteuerte Ressourcennutzung führt zu Kosteneffektivität.
-
Verbesserte Workload-Stabilität: Schnellere Erkennung und Lösung von Problemen führt zu einer verbesserten Verfügbarkeit.
-
Optimierte CI/CD-Prozesse: Erkenntnisse aus Telemetriedaten erleichtern die Verfeinerung von Prozessen und sichern die Codebereitstellung.
Risikostufe, wenn diese bewährte Methode nicht eingeführt wird: Hoch
Implementierungsleitfaden
Um Anwendungstelemetrie für Ihren Workload zu implementieren, verwenden Sie AWS-Services wie Amazon CloudWatch
Implementierungsschritte
-
Identifizieren, welche Daten erfasst werden sollen: Ermitteln Sie die wichtigsten Metriken, Protokolle und Traces, die aussagekräftige Erkenntnisse zu Zustand, Leistung und Verhalten Ihres Workloads bieten.
-
Bereitstellen des CloudWatch-Agenten
: Der CloudWatch-Agent ist maßgeblich an der Beschaffung von System- und Anwendungsmetriken und Protokollen von Ihrer Workload und der zugrunde liegenden Infrastruktur beteiligt. Der CloudWatch-Agent kann auch verwendet werden, um OpenTelemetry- oder X-Ray-Traces zu erfassen und an X-Ray zu senden. -
Implementierung der Anomalieerkennung für Protokolle und Metriken: Verwenden Sie die Anomalieerkennung von CloudWatch Logs und die Anomalieerkennung von CloudWatch Metrics, um ungewöhnliche Aktivitäten beim Betrieb Ihrer Anwendung automatisch zu identifizieren. Diese Tools verwenden Machine-Learning-Algorithmen, um Anomalien zu erkennen und sie zu melden. Dadurch werden Ihre Überwachungsfunktionen verbessert und die Reaktionszeit bei potenziellen Störungen oder Sicherheitsbedrohungen verkürzt. Richten Sie diese Features ein, um den Zustand und die Sicherheit von Anwendungen proaktiv zu verwalten.
-
Schutz sensibler Protokolldaten: Verwenden Sie den Datenschutz von Amazon CloudWatch Logs, um vertrauliche Informationen in Ihren Protokollen zu maskieren. Dieses Feature trägt zur Wahrung von Datenschutz und Compliance bei, indem sensible Daten automatisch erkannt und maskiert werden, bevor auf sie zugegriffen wird. Implementieren Sie Datenmaskierung, um sensible Daten wie persönlich identifizierbare Informationen (PII) sicher zu handhaben und zu schützen.
-
Definieren und Beobachten von Geschäfts-KPIs: Legen Sie benutzerdefinierte Metriken fest, die auf Ihre Geschäftsergebnisse
abgestimmt sind. -
Instrumentieren Ihrer Anwendung mit AWS X-Ray: Neben der Bereitstellung des CloudWatch-Agenten ist es wichtig, Ihre Anwendung so zu instrumentieren, dass sie Trace-Daten ausgibt. Dieser Prozess kann weitere Erkenntnisse zum Verhalten und zur Leistung Ihrer Workload liefern.
-
Standardisierung der Datenerfassung in Ihrer gesamten Anwendung: Standardisieren Sie die Datenerfassungspraktiken für Ihre gesamte Anwendung. Einheitlichkeit hilft bei der Korrelation und Analyse von Daten und liefert einen umfassenden Überblick über das Verhalten Ihrer Anwendung.
-
Implementierung von kontenübergreifender Beobachtbarkeit: Verbessern Sie die Effizienz der Überwachung über mehrere AWS-Konten hinweg mit der kontenübergreifenden Beobachtbarkeit von Amazon CloudWatch. Mit diesem Feature können Sie Metriken, Protokolle und Alarme aus verschiedenen Konten in einer einzigen Ansicht konsolidieren, was die Verwaltung vereinfacht und die Reaktionszeiten bei identifizierten Problemen in der gesamten AWS-Umgebung der Organisation verbessert.
-
Analyse von Daten und Umsetzen der Erkenntnisse: Sobald die Datenerfassung und Normalisierung abgeschlossen sind, verwenden Sie Amazon CloudWatch
für die Analyse von Metriken und Protokollen sowie AWS X-Ray für die Trace-Analyse. Eine solche Analyse kann wichtige Erkenntnisse über den Zustand, die Leistung und das Verhalten Ihrer Workload liefern und so Ihren Entscheidungsprozess beeinflussen.
Aufwand für den Implementierungsplan: Hoch
Ressourcen
Zugehörige bewährte Methoden:
Zugehörige Dokumente:
Zugehörige Videos:
Zugehörige Beispiele: