Apéndice 1: Métricas fundamentales del MTTD y el MTTR - Disponibilidad y más allá: Descripción y mejora de la resiliencia de los sistemas distribuidos en AWS

Apéndice 1: Métricas fundamentales del MTTD y el MTTR

Lo siguiente es un marco para la estandarización de la instrumentación y la observabilidad que puede ayudar a reducir los tiempos medios de detección y de recuperación (MTTD y MTTR, respectivamente). durante un evento.

Métricas de la experiencia del cliente: reflejan que un servicio responde y está disponible para atender las solicitudes de los clientes. Por ejemplo, la latencia del plano de control. Estas métricas miden el índice de errores, la disponibilidad, la latencia, el volumen y el índice de limitaciones.

Métricas de evaluación del impacto: proporcionan información sobre el alcance del impacto durante los eventos. Por ejemplo, la cantidad o el porcentaje de clientes afectados por un evento del plano de datos. Mide la cantidad o el porcentaje de cosas afectadas.

Métricas del estado operativo: reflejan que un servicio responde y está disponible para atender las solicitudes de los clientes, pero se centran en los subsistemas y los recursos habituales de la infraestructura. Por ejemplo, el porcentaje de uso de la CPU de la flota de EC2. Estas métricas deben medir la utilización, la capacidad, el rendimiento, el índice de errores, la disponibilidad y la latencia.