Supervisar los recursos de la carga de trabajo - Pilar de fiabilidad

Supervisar los recursos de la carga de trabajo

Los registros y las métricas son una potente herramienta para obtener información sobre el estado de sus cargas de trabajo. Puede configurar su carga de trabajo de forma que supervise registros y métricas, y envíe notificaciones cuando se crucen ciertos umbrales o se produzcan eventos importantes. La supervisión permite que su carga de trabajo reconozca cuándo se cruzan umbrales de bajo rendimiento o se producen errores, para que pueda recuperarse de los errores rápidamente una vez recibida una respuesta.

La supervisión es vital para garantizar el cumplimiento de los requisitos de disponibilidad. El monitoreo debe detectar los errores de manera efectiva. El peor modo de error es el «silencioso», en el que la funcionalidad ya no sirve, pero no hay forma de detectarlo, excepto indirectamente. El cliente lo sabe antes que usted. Alertar cuando tiene problemas es una de las principales razones por las que monitorea. Las alertas deben estar desacopladas del sistema en la medida de lo posible. Si la interrupción del servicio elimina la posibilidad de generar alertas, habrá un periodo de interrupción más largo.

En AWS, instrumentamos nuestras aplicaciones en múltiples niveles. Registramos la latencia, las tasas de error y la disponibilidad para cada solicitud, para todas las dependencias y para las operaciones clave dentro del proceso. También registramos métricas de operación exitosa. Esto permite ver los problemas inminentes antes de que sucedan. No nos limitamos a tener en cuenta la latencia media. Nos centramos más estrechamente en las divergencias de latencia, como el percentil 99,9 o el 99,99. Esto se debe a que, si una solicitud de entre 1000 o 10 000 es lenta, sigue provocando una experiencia deficiente. Además, aunque el promedio sea aceptable, si una de cada 100 solicitudes causa una latencia extrema, acabará convirtiéndose en un problema cuando el tráfico crezca.

La supervisión en AWS consta de cuatro fases distintas:

  1. Generación: supervisar todos los componentes de la carga de trabajo

  2. Agregación: definir y calcular métricas

  3. Procesamiento y alarmas en tiempo real: enviar notificaciones y automatizar respuestas

  4. Almacenamiento y análisis