OPS11-BP02 Realizar un análisis después del incidente - AWS Well-Architected Framework

OPS11-BP02 Realizar un análisis después del incidente

Revise los eventos que afectan a los clientes e identifique los factores que contribuyen a ellos y las medidas preventivas. Use esta información para desarrollar un plan de mitigación que limite o evite la reaparición del problema. Desarrolle procedimientos para proporcionar respuestas rápidas y eficaces. Comunique los factores que han contribuido al problema y las medidas correctivas según corresponda, adaptados al público de destino.

Resultado deseado:

  • Establecer procesos de administración de incidentes que incluyen análisis después del incidente.

  • Desarrollar planes de observabilidad para recopilar datos sobre los eventos.

  • Comprender y recopilar, con estos datos, las métricas que respaldan su proceso de análisis posterior al incidente.

  • Aprender de los incidentes para mejorar los resultados futuros.

Antipatrones usuales:

  • Administra un servidor de aplicaciones. Aproximadamente cada 23 horas y 55 minutos finalizan todas las sesiones activas. Ha tratado de identificar lo que no funciona correctamente en el servidor de aplicaciones. Sospecha que podría tratarse de un problema de red, pero no consigue que el equipo de red colabore porque están demasiado ocupados para ayudarle. Carece de un proceso predefinido para obtener asistencia y recopilar la información necesaria para determinar lo que está sucediendo.

  • Ha sufrido pérdidas de datos dentro de la carga de trabajo. Es la primera vez que ocurre y la causa no es evidente. Decide que no es importante porque puede volver a crear los datos. La pérdida de datos comienza a producirse con mayor frecuencia, lo que afecta a los clientes. Esto también supone una carga operativa adicional al restaurar los datos perdidos.

Beneficios de establecer esta práctica recomendada:

  • Disponer de un proceso predefinido para determinar los componentes, las condiciones, las acciones y los eventos que han contribuido a un incidente le permite identificar oportunidades de mejora.

  • Utilizar los datos del análisis posterior al incidente para realizar mejoras.

Nivel de riesgo expuesto si no se establece esta práctica recomendada: alto

Guía para la implementación

Usar un proceso para determinar los factores que han contribuido al problema. Revisar todos los incidentes que afectan a los clientes. Disponga de un proceso para identificar y documentar los factores que han contribuido al incidente, de manera que se puedan elaborar medidas de mitigación para limitar o prevenir su repetición y se puedan desarrollar procedimientos para dar respuestas rápidas y eficaces. Comunique las causas raíz de los incidentes según corresponda y adapte la comunicación a su público objetivo. Comparta la información obtenida con el resto de la organización.

Pasos para la implementación

  1. Recopile métricas como el cambio de despliegue o de configuración, la hora de inicio del incidente, la hora de la alarma, la hora de activación, la hora de inicio de la mitigación y la hora de resolución del incidente.

  2. Describa los puntos temporales clave en el cronograma para comprender los eventos del incidente.

  3. Hágase las siguientes preguntas:

    1. ¿Podría mejorar el tiempo de detección?

    2. ¿Hay actualizaciones para las métricas y las alarmas que podrían detectar el incidente antes?

    3. ¿Se puede mejorar el tiempo hasta el diagnóstico?

    4. ¿Se pueden actualizar los planes de respuesta o los planes de escalado para que intervenga antes el personal adecuado?

    5. ¿Puede mejorar el tiempo de mitigación?

    6. ¿Hay pasos del runbook o de la guía de estrategias que pueda añadir o mejorar?

    7. ¿Puede evitar que ocurran futuros incidentes?

  4. Cree listas de verificación y acciones. Realice un seguimiento y cumpla con todas las acciones.

Nivel de esfuerzo para el plan de implementación: medio.

Recursos

Prácticas recomendadas relacionadas:

Documentos relacionados: