OPS10-BP02 Tener un proceso por alerta - Pilar de excelencia operativa

OPS10-BP02 Tener un proceso por alerta

Establecer un proceso claro y definido para cada alerta de su sistema es esencial para una administración de incidentes eficaz y eficiente. Esta práctica garantiza que cada alerta genere una respuesta específica y procesable, lo que mejora la fiabilidad y la capacidad de respuesta de sus operaciones.

Resultado deseado: Cada alerta inicia un plan de respuesta específico y bien definido. Siempre que sea posible, las respuestas se automatizan, con una propiedad clara y una ruta de escalado definida. Las alertas están vinculadas a una base de conocimientos actualizada para que cualquier operador pueda responder de forma coherente y eficaz. Las respuestas son rápidas y uniformes en todos los ámbitos, lo que mejora la eficiencia y la fiabilidad operativas.

Patrones comunes de uso no recomendados:

  • Las alertas no tienen un proceso de respuesta predefinido, lo que lleva a resoluciones improvisadas y tardías.

  • La sobrecarga de alertas hace que se pasen por alto alertas importantes.

  • Las alertas se gestionan de forma incoherente debido a la falta de propiedad y responsabilidad claras.

Beneficios de establecer esta práctica recomendada:

  • Reducción de la fatiga de las alertas al generar solo alertas procesables.

  • Disminución del tiempo medio de resolución (MTTR) de los problemas operativos.

  • Disminución del tiempo medio de investigación (MTTI), lo que ayuda a reducir el MTTR.

  • Mejora de la capacidad para escalar las respuestas operativas.

  • Mejora de la coherencia y la fiabilidad en la gestión de los eventos operativos.

Nivel de riesgo expuesto si no se establece esta práctica recomendada: Alto

Guía para la implementación

Tener un proceso por alerta implica establecer un plan de respuesta claro para cada alerta, automatizar las respuestas siempre que sea posible y perfeccionar continuamente estos procesos en función de los comentarios operativos y los requisitos en evolución.

Pasos para la implementación

El siguiente diagrama muestra el flujo de trabajo de administración de incidentes en AWS Systems Manager Incident Manager. Está diseñado para responder rápidamente a los problemas operativos mediante la creación automática de incidentes en respuesta a eventos específicos de Amazon CloudWatch o bien Amazon EventBridge. Cuando se crea un incidente, ya sea de forma automática o manual, Incident Manager centraliza la administración del incidente, organiza la información relevante de los recursos de AWS e inicia planes de respuesta predefinidos. Esto incluye ejecutar runbooks de automatización de Systems Manager para tomar medidas inmediatas, así como crear un elemento de trabajo operativo principal en OpsCenter para realizar un seguimiento de las tareas y los análisis relacionados. Este proceso simplificado acelera y coordina la respuesta a los incidentes en todo su entorno de AWS.

Diagrama de flujo que muestra cómo funciona Incident Manager: AWS Chatbot, los planes y contactos de escalado, y los libros de ejecución desembocan en planes de respuesta, que a su vez se convierten en planes de análisis e incidentes. Amazon CloudWatch también se refleja en los planes de respuesta.

  1. Utilice alarmas compuestas: Cree alarmas compuestas en CloudWatch para agrupar alarmas relacionadas, lo que reduce el ruido y permite respuestas más significativas.

  2. Integre las alarmas de Amazon CloudWatch con Incident Manager Configure las alarmas de CloudWatch para crear automáticamente incidentes en AWS Systems Manager Incident Manager.

  3. Integre Amazon EventBridge con Incident Manager: Cree reglas de EventBridge para reaccionar ante los eventos y crear incidentes mediante planes de respuesta definidos.

  4. Prepárese para los incidentes en Incident Manager:

    • Elabore planes de respuesta detallados en Incident Manager para cada tipo de alerta.

    • Establezca canales de chat a través de AWS Chatbot conectados a los planes de respuesta de Incident Manager, lo que facilita la comunicación en tiempo real durante los incidentes en plataformas como Slack, Microsoft Teams y Amazon Chime.

    • Añada runbooks de automatización de Systems Manager a Incident Manager para activar respuestas automatizadas a los incidentes.

Recursos

Prácticas recomendadas relacionadas:

Documentos relacionados:

Vídeos relacionados:

Ejemplos relacionados: