OPS11-BP02 Análisis después del incidente
Revise los eventos que afectan a los clientes e identifique los factores que contribuyen a ellos y las medidas preventivas. Use esta información para desarrollar un plan de mitigación que limite o evite la reaparición del problema. Desarrolle procedimientos para proporcionar respuestas rápidas y eficaces. Comunique los factores que han contribuido al problema y las medidas correctivas según corresponda, adaptados al público de destino.
Resultado deseado:
-
Ha establecido procesos de administración de incidentes que incluyen análisis después del incidente.
-
Tiene planes de observabilidad para recopilar datos sobre los eventos.
-
Con estos datos, comprende y recopila las métricas que respaldan su proceso de análisis posterior al incidente.
-
Aprende de los incidentes para mejorar los resultados futuros.
Patrones comunes de uso no recomendados:
-
Administra un servidor de aplicaciones. Aproximadamente cada 23 horas y 55 minutos finalizan todas las sesiones activas. Ha tratado de identificar lo que no funciona correctamente en el servidor de aplicaciones. Sospecha que podría tratarse de un problema de red, pero no consigue que el equipo de red colabore porque están demasiado ocupados para ayudarle. Carece de un proceso predefinido para obtener asistencia y recopilar la información necesaria para determinar lo que está sucediendo.
-
Ha sufrido pérdidas de datos dentro de la carga de trabajo. Es la primera vez que ocurre y la causa no es evidente. Decide que no es importante porque puede volver a crear los datos. La pérdida de datos comienza a producirse con mayor frecuencia, lo que afecta a los clientes. Esto también supone una carga operativa adicional al restaurar los datos perdidos.
Beneficios de establecer esta práctica recomendada:
-
Dispone de un proceso predefinido para determinar los componentes, las condiciones, las acciones y los eventos que han contribuido a un incidente le permite identificar oportunidades de mejora.
-
Utiliza los datos del análisis posterior al incidente para aplicar mejoras.
Nivel de riesgo expuesto si no se establece esta práctica recomendada: alto
Guía para la implementación
Use un proceso para determinar los factores que han contribuido al problema. Revise todos los incidentes que afectan a los clientes. Disponga de un proceso para identificar y documentar los factores que han contribuido al incidente, de manera que se puedan elaborar medidas de mitigación para limitar o prevenir su repetición y se puedan desarrollar procedimientos para dar respuestas rápidas y eficaces. Comunique las causas raíz de los incidentes según corresponda y adapte la comunicación a su público objetivo. Comparta la información obtenida con el resto de la organización.
Pasos para la implementación
-
Recopile métricas como el cambio de implementación o de configuración, la hora de inicio del incidente, la hora de la alarma, la hora de activación, la hora de inicio de la mitigación y la hora de resolución del incidente.
-
Describa los puntos temporales clave en el cronograma para comprender los eventos del incidente.
-
Hágase las siguientes preguntas:
-
¿Podría mejorar el tiempo de detección?
-
¿Existen actualizaciones de las métricas y alarmas que detectarían el incidente en menos tiempo?
-
¿Puede mejorar el tiempo hasta el diagnóstico?
-
¿Existen actualizaciones para sus planes de respuesta o planes de escalada que implicarían en menos tiempo a los respondedores correctos?
-
¿Puede mejorar el tiempo de mitigación?
-
¿Hay pasos del manual de procedimientos o de estrategias que pueda agregar o mejorar?
-
¿Puede evitar que ocurran futuros incidentes?
-
-
Cree listas de verificación y acciones. Haga un seguimiento y cumpla con todas las acciones.
Nivel de esfuerzo para el plan de implementación: medio
Recursos
Prácticas recomendadas relacionadas:
Documentos relacionados: