Annexe 1 — Métriques critiques du MTTD et du MTTR - Disponibilité et au-delà : comprendre et améliorer la résilience des systèmes distribués sur AWS

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Annexe 1 — Métriques critiques du MTTD et du MTTR

Vous trouverez ci-dessous un cadre de standardisation de l'instrumentation et de l'observabilité qui peut aider à réduire le MTTD et le MTTR lors d'un événement.

Métriques de l'expérience client. Ces indicateurs indiquent qu'un service est réactif et disponible pour répondre aux demandes des clients. Par exemple, la latence du plan de contrôle. Ces mesures mesurent le taux d'erreur, la disponibilité, la latence, le volume et le taux d'accélération.

Métriques d'évaluation d'impact. Ces indicateurs fournissent des informations sur l'ampleur de l'impact des événements. Par exemple, le nombre ou le pourcentage de clients concernés par un événement survenu dans un avion de données. Mesure le nombre ou le pourcentage d'éléments concernés.

Métriques de santé opérationnelle. Ces indicateurs indiquent qu'un service est réactif et disponible pour répondre aux demandes des clients, tout en se concentrant sur des sous-systèmes et des ressources d'infrastructure communs. Par exemple, le pourcentage d'utilisation du processeur de votre parc EC2. Ces mesures doivent mesurer l'utilisation, la capacité, le débit, le taux d'erreur, la disponibilité et la latence.