Ciclo de vida de los incidentes en Incident Manager - Incident Manager

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ciclo de vida de los incidentes en Incident Manager

AWS Systems Manager Incident Manager proporciona un marco paso a paso basado en las prácticas recomendadas para identificar y reaccionar ante incidentes, como cortes de servicio o amenazas a la seguridad. El objetivo principal de Incident Manager es ayudar a restablecer la normalidad de los servicios o aplicaciones afectados lo antes posible mediante una solución completa de administración del ciclo de vida de los incidentes.

Incident Manager proporciona herramientas y prácticas recomendadas para cada fase del ciclo de vida de los incidentes:

El ciclo de vida de un incidente fluye cíclicamente desde la alerta e intervención hasta el triaje, la investigación, el análisis post-incidente y de nuevo a la alerta e intervención.

Alerta e intervención

La fase de alerta e intervención del ciclo de vida del incidente se centra en dar a conocer los incidentes dentro de sus aplicaciones y servicios. Esta fase comienza antes de que se detecte un incidente y requiere un profundo conocimiento de sus aplicaciones. Puede utilizar las Métricas de Amazon CloudWatch para monitorear datos sobre el rendimiento de sus aplicaciones, o aprovechar Amazon EventBridge para agregar alertas de diferentes orígenes, aplicaciones y servicios. Después de haber configurado el monitoreo de sus aplicaciones, puede comenzar a alertar sobre las métricas que se desvían de la norma histórica. Para obtener más información sobre las prácticas recomendadas de monitoreo, consulte Supervisión.

Para apoyar el diagnóstico de incidentes de los respondedores, puede habilitar la característica Resultados en Incident Manager. Los resultados son información sobre implementaciones de AWS CodeDeploy y actualizaciones de la pila de AWS CloudFormation que se produjeron alrededor del momento de un incidente. Disponer de esta información reduce el tiempo necesario para evaluar las causas potenciales, lo que puede reducir el tiempo medio de recuperación (MTTR) de un incidente.

Ahora que está monitoreando los incidentes en sus aplicaciones, puede definir un plan de respuesta a incidentes a fin de utilizarlo durante un incidente. Para obtener más información sobre la creación de planes de respuesta, consulte Uso de los planes de respuesta en Incident Manager. Los eventos de Amazon EventBridge o las alarmas de CloudWatch pueden crear automáticamente un incidente utilizando como plantilla los planes de respuesta. Para obtener más información sobre la creación de incidentes, consulte Creación de incidentes en Incident Manager.

Los planes de respuesta lanzan planes de escalada y planes de participación relacionados para atraer a los primeros respondedores al incidente. Para obtener más información sobre la creación de planes de escalada, consulte Creación de un plan de escalada. Simultáneamente, AWS Chatbot notifica a los respondedores mediante un canal de chat, dirigiéndoles a la página de detalles del incidente. Mediante el canal de chat y los detalles del incidente, el equipo puede comunicar y clasificar un incidente. Para obtener más información sobre la configuración de canales de chat en Incident Manager, consulte Tarea 2: Crear un canal de chat en AWS Chatbot.

Triaje

El triaje es cuando los primeros respondedores intentan determinar el impacto para los clientes. La vista de detalles del incidente en la consola de Incident Manager proporciona a los respondedores líneas temporales y métricas para ayudarles a evaluar el incidente. La evaluación del impacto de un incidente también sienta las bases para el tiempo de respuesta, la resolución y la comunicación del incidente. Los respondedores priorizan los incidentes utilizando clasificaciones de impacto del 1 (Crítico) al 5 (Sin impacto).

Su organización puede definir el alcance exacto de cada clasificación de impacto como prefiera. En la tabla siguiente se ofrecen ejemplos de cómo podría definirse normalmente cada nivel de impacto.

Código del impacto Nombre del impacto Ejemplo de alcance definido
1 Critical

Fallo total de una aplicación que repercute en la mayoría de los clientes.

2 High

Fallo total de una aplicación que repercute en un subconjunto de clientes.

3 Medium

Fallo parcial de una aplicación que repercute en los clientes.

4 Low

Fallos intermitentes que tienen un impacto limitado en los clientes.

5 No Impact

Los clientes no se ven actualmente afectados, pero es necesario tomar medidas urgentes para evitar el impacto.

Investigación y mitigación

La vista de detalles del incidente proporciona a su equipo manuales de procedimientos, líneas temporales y métricas. Para obtener información sobre cómo puede trabajar con un incidente, consulte Detalles del incidente.

Los manuales de procedimientos suelen proporcionar pasos de investigación y pueden extraer datos o intentar soluciones de uso común de forma automática. Los manuales de procedimientos también proporcionan pasos claros y repetibles que su equipo ha encontrado útiles para mitigar incidentes. La pestaña “Manual de procedimientos” se centra en el paso actual del manual de procedimientos y muestra los pasos pasados y futuros.

Incident Manager se integra con Systems Manager Automation para crear manuales de procedimientos. Utilice los manuales de procedimientos para realizar cualquiera de las siguientes acciones:

  • Administrar instancias y recursos de AWS

  • Ejecutar scripts de forma automática

  • Administrar recursos de AWS CloudFormation

Para obtener más información sobre los tipos de acciones admitidos, consulte Referencia de acciones de Systems Manager Automation en la Guía del usuario de AWS Systems Manager.

La pestaña Línea temporal muestra las acciones que se han realizado. La línea temporal registra cada acción con una marca de tiempo y detalles creados automáticamente. Para añadir eventos personalizados a la línea temporal, consulte la sección Plazo en la página Detalles del incidente de esta guía del usuario.

La pestaña Diagnóstico muestra métricas introducidas tanto de forma automática como manual. Esta vista proporciona información valiosa sobre las actividades de su aplicación durante un incidente.

La pestaña Participaciones le permite añadir contactos adicionales al incidente y ayuda a proporcionar los recursos para que el contacto implicado se ponga al día rápidamente una vez involucrado en el incidente. Los contactos se comprometen a través de planes de escalada o planes de participación personal definidos.

Mediante un canal de chat<, puede interactuar directamente con su incidente y con otros respondedores de su equipo. Mediante AWS Chatbot, puede configurar canales de chat en Slack, Microsoft Teams y Amazon Chime. En los canales Slack y Microsoft Teams, los respondedores pueden interactuar con los incidentes directamente desde el canal de chat utilizando una serie de comandos ssm-incidents. Para obtener más información, consulte Interacción a través del canal de chat.

Análisis post-incidente

Incident Manager proporciona un marco para reflexionar sobre un incidente, tomar las medidas necesarias para evitar que se repita en el futuro y mejorar las actividades de respuesta a incidentes en general. Las mejoras pueden incluir:

  • Cambios en las aplicaciones implicadas en un incidente. Su equipo puede utilizar este tiempo para mejorar el sistema y hacerlo más tolerante a los fallos.

  • Cambios en un plan de respuesta a incidentes. Tómese el tiempo necesario para incorporar las lecciones aprendidas.

  • Cambios en los manuales de procedimientos. Su equipo puede profundizar en los pasos necesarios para la resolución y en los pasos que usted puede automatizar.

  • Cambios en las alertas. Tras un incidente, su equipo podría haber observado puntos críticos en las métricas que puede utilizar para alertar con antelación al equipo sobre un incidente.

Incident Manager facilita estas mejoras potenciales a través de un conjunto de preguntas de análisis post-incidente y elementos de acción junto con la línea temporal del incidente. Para obtener más información sobre la mejora a través del análisis, consulte Realización de un análisis post-incidente en Incident Manager.