REL11-BP06 Enviar notificaciones cuando los eventos afecten a la disponibilidad
Las notificaciones se envían al detectar eventos importantes, incluso si el problema causado por el evento se solucionó automáticamente.
La corrección automática permite que la carga de trabajo sea fiable. Sin embargo, también puede disimular problemas subyacentes que deberían abordarse. Implemente una supervisión y unos eventos apropiados para poder detectar patrones de problemas, incluidos los que pueden abordarse mediante corrección automática, para que pueda resolver los problemas de la causa raíz. Las alarmas de Amazon CloudWatch se pueden activar sobre la base de los errores que se produzcan. También pueden activarse sobre la base de las acciones de corrección automática que se ejecuten. Las alarmas de CloudWatch se pueden configurar para enviar correos electrónicos o para registrar incidentes en sistemas de seguimiento de incidentes de terceros mediante la integración con Amazon SNS.
Patrones de uso no recomendados comunes:
-
Enviar alarmas sobre las que nadie emprende medidas
-
Realizar la automatización de la autorreparación, pero no notificar que se necesita una reparación
Beneficios de establecer esta práctica recomendada: Las notificaciones de eventos de recuperación garantizarán que no se omitan problemas que ocurren con poca frecuencia.
Nivel de riesgo expuesto si no se establece esta práctica recomendada: Mediana
Guía para la implementación
Alarmas sobre indicadores clave de rendimiento (KPI) empresariales cuando superen un umbral bajo. Al tener una alarma de umbral bajo en sus KPI empresariales, podrá detectar cuándo su carga de trabajo no está disponible o no es funcional.
-
Alarmas sobre eventos que invocan una automatización de corrección. Puede invocar directamente una API de SNS para enviar notificaciones con cualquier automatización que cree.
Recursos
Documentos relacionados: