Supervisión de los recursos de la carga de trabajo
Los registros y las métricas son herramientas poderosas para obtener información sobre el estado de su carga de trabajo. Puede configurar su carga de trabajo para supervisar los registros y las métricas y enviar notificaciones cuando se superen los umbrales o se produzcan eventos significativos. La supervisión permite que su carga de trabajo reconozca cuándo se cruzan umbrales de bajo rendimiento o se producen errores, para que pueda recuperarse de los errores de forma automática una vez recibida una respuesta.
La supervisión es vital para garantizar el cumplimiento de los requisitos de disponibilidad. La supervisión debe detectar los errores de manera efectiva. El peor modo de error es el “silencioso”, en el que la funcionalidad ya no sirve, pero no hay forma de detectarlo, excepto indirectamente. Los clientes se dan cuenta antes que usted. Poder alertar cuando tiene problemas es una de las principales razones por las que debe supervisar. Las alertas deben estar desacopladas del sistema en la medida de lo posible. Si la interrupción del servicio elimina la posibilidad de generar alertas, habrá un periodo de interrupción más largo.
En AWS, instrumentamos nuestras aplicaciones en múltiples niveles. Registramos la latencia, las tasas de error y la disponibilidad de cada solicitud, de todas las dependencias y de las operaciones clave dentro del proceso. También registramos métricas de operación exitosa. Esto permite ver los problemas inminentes antes de que sucedan. No solo tenemos en cuenta la latencia media. Nos centramos aún más en los valores atípicos de latencia, como los percentiles 99,9 y 99,99. Esto se debe a que, si una de cada 1000 o 10 000 solicitudes es lenta, la experiencia sigue siendo mala. Si el promedio es aceptable, pero una de cada 100 solicitudes causa una latencia extrema, cuando el tráfico crezca, eventualmente se convertirá en un problema.
La supervisión en AWS consta de cinco fases distintas:
-
Generación: supervisión de todos los componentes de la carga de trabajo
-
Agregación: definición y cálculo de métricas
-
Procesamiento y alarmas en tiempo real: envío de notificaciones y automatización de respuestas
-
Almacenamiento y análisis
Prácticas recomendadas
- REL06-BP01 Supervisión de todos los componentes de la carga de trabajo (generación)
- REL06-BP02 Definición y cálculo de métricas (agregación)
- REL06-BP03 Envío de notificaciones (procesamiento y alarmas en tiempo real)
- REL06-BP04 Automatización de las respuestas (procesamiento y alarmas en tiempo real)
- REL06-BP05 Análisis de registros
- REL06-BP06 Revisiones frecuentes
- REL06-BP07 Supervisión del seguimiento de las solicitudes de principio a fin en todo el sistema