OPS10-BP02 Tener un proceso por alerta
Establecer un proceso claro y definido para cada alerta de su sistema es esencial para una administración de incidentes eficaz y eficiente. Esta práctica garantiza que cada alerta genere una respuesta específica y procesable, lo que mejora la fiabilidad y la capacidad de respuesta de sus operaciones.
Resultado deseado: Cada alerta inicia un plan de respuesta específico y bien definido. Siempre que sea posible, las respuestas se automatizan, con una propiedad clara y una ruta de escalado definida. Las alertas están vinculadas a una base de conocimientos actualizada para que cualquier operador pueda responder de forma coherente y eficaz. Las respuestas son rápidas y uniformes en todos los ámbitos, lo que mejora la eficiencia y la fiabilidad operativas.
Patrones comunes de uso no recomendados:
-
Las alertas no tienen un proceso de respuesta predefinido, lo que lleva a resoluciones improvisadas y tardías.
-
La sobrecarga de alertas hace que se pasen por alto alertas importantes.
-
Las alertas se gestionan de forma incoherente debido a la falta de propiedad y responsabilidad claras.
Beneficios de establecer esta práctica recomendada:
-
Reducción de la fatiga de las alertas al generar solo alertas procesables.
-
Disminución del tiempo medio de resolución (MTTR) de los problemas operativos.
-
Disminución del tiempo medio de investigación (MTTI), lo que ayuda a reducir el MTTR.
-
Mejora de la capacidad para escalar las respuestas operativas.
-
Mejora de la coherencia y la fiabilidad en la gestión de los eventos operativos.
Nivel de riesgo expuesto si no se establece esta práctica recomendada: Alto
Guía para la implementación
Tener un proceso por alerta implica establecer un plan de respuesta claro para cada alerta, automatizar las respuestas siempre que sea posible y perfeccionar continuamente estos procesos en función de los comentarios operativos y los requisitos en evolución.
Pasos para la implementación
El siguiente diagrama muestra el flujo de trabajo de administración de incidentes en AWS Systems Manager Incident Manager
![Diagrama de flujo que muestra cómo funciona Incident Manager: AWS Chatbot, los planes y contactos de escalado, y los libros de ejecución desembocan en planes de respuesta, que a su vez se convierten en planes de análisis e incidentes. Amazon CloudWatch también se refleja en los planes de respuesta.](images/incident-manager-how-it-works.png)
-
Utilice alarmas compuestas: Cree alarmas compuestas en CloudWatch para agrupar alarmas relacionadas, lo que reduce el ruido y permite respuestas más significativas.
-
Integre las alarmas de Amazon CloudWatch con Incident Manager Configure las alarmas de CloudWatch para crear automáticamente incidentes en AWS Systems Manager Incident Manager.
-
Integre Amazon EventBridge con Incident Manager: Cree reglas de EventBridge para reaccionar ante los eventos y crear incidentes mediante planes de respuesta definidos.
-
Prepárese para los incidentes en Incident Manager:
-
Elabore planes de respuesta detallados en Incident Manager para cada tipo de alerta.
-
Establezca canales de chat a través de AWS Chatbot conectados a los planes de respuesta de Incident Manager, lo que facilita la comunicación en tiempo real durante los incidentes en plataformas como Slack, Microsoft Teams y Amazon Chime.
-
Añada runbooks de automatización de Systems Manager a Incident Manager para activar respuestas automatizadas a los incidentes.
-
Recursos
Prácticas recomendadas relacionadas:
Documentos relacionados:
Vídeos relacionados:
Ejemplos relacionados: