OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas - AWS Well-Architected Framework

OPS10-BP01 Uso de un proceso para la administración de eventos, incidentes y problemas

Su organización tiene procesos para gestionar eventos, incidentes y problemas. Los eventos son cosas que ocurren en su carga de trabajo pero que podrían no necesitar intervención. Los incidentes son eventos que requieren intervención. Los problemas son eventos recurrentes que requieren una intervención o que no pueden resolverse. Necesita procesos para mitigar el impacto de estos eventos en su negocio y asegurarse de que responde adecuadamente.

Cuando se producen incidentes y problemas en su carga de trabajo, necesita procesos para gestionarlos. ¿Cómo va a comunicar el estado del evento a las partes interesadas? ¿Quién supervisa la dirección de la respuesta? ¿Cuáles son las herramientas que utiliza para mitigar el evento? Estos son ejemplos de algunas de las preguntas que debe responder para tener un proceso de respuesta sólido.

Los procesos deben estar documentados en un lugar central y a disposición de cualquier persona involucrada en su carga de trabajo. Si no tiene un wiki central o un almacén de documentos, se puede utilizar un repositorio de control de versiones. Mantendrá estos planes actualizados a medida que sus procesos evolucionen.

Los problemas son candidatos a la automatización. Estos eventos le restan tiempo a su capacidad de innovar. Empiece por crear un proceso repetible para mitigar el problema. Con el tiempo, céntrese en automatizar la mitigación o en solucionar el problema subyacente. Esto libera tiempo para dedicarlo a hacer mejoras en su carga de trabajo.

Resultado deseado: Su organización tiene un proceso para gestionar eventos, incidentes y problemas. Estos procesos se documentan y almacenan en un lugar central. Se actualizan a medida que cambian los procesos.

Patrones comunes de uso no recomendados:

  • Se produce un incidente en el fin de semana y el ingeniero de guardia no sabe qué hacer.

  • Un cliente le envía un correo electrónico diciendo que la aplicación no funciona. Se reinicia el servidor para solucionarlo. Esto ocurre con frecuencia.

  • Hay un incidente en el que varios equipos trabajan de forma independiente para intentar resolverlo.

  • Los despliegues ocurren en su carga de trabajo sin registrarse.

Beneficios de establecer esta práctica recomendada:

  • Tiene una pista de auditoría de los eventos en su carga de trabajo.

  • Su tiempo para recuperarse de un incidente disminuye.

  • Los miembros del equipo pueden resolver incidentes y problemas de manera coherente.

  • Hay un esfuerzo más consolidado cuando se investiga un incidente.

Nivel de riesgo expuesto si no se establece esta práctica recomendada: Alto

Guía para la implementación

La implementación de esta práctica recomendada implica el seguimiento de los eventos de la carga de trabajo. Dispone de procesos para gestionar las incidencias y los problemas. Los procesos se documentan, se comparten y se actualizan con frecuencia. Los problemas se identifican, se priorizan y se solucionan.

Ejemplo de cliente

AnyCompany Retail tiene una parte de su wiki interna dedicada a los procesos de gestión de eventos, incidentes y problemas. Todos los eventos se envían a Amazon EventBridge. Los problemas se identifican como OpsItems en AWS Systems Manager OpsCenter y su solución se prioriza, reduciendo la mano de obra no diferenciada. A medida que los procesos cambian, se actualizan en su wiki interna. Utilizan AWS Systems Manager Incident Manager para gestionar los incidentes y coordinar los esfuerzos de mitigación.

Pasos para la aplicación

  1. Eventos

    • Realice un seguimiento de los eventos que se producen en su carga de trabajo, aunque no sea necesaria la intervención humana.

    • Trabaje con las partes interesadas en la carga de trabajo para desarrollar una lista de eventos que deben rastrearse. Algunos ejemplos son los despliegues completados o la aplicación de parches con éxito.

    • Puede utilizar servicios como Amazon EventBridge o bien Amazon Simple Notification Service para generar eventos personalizados para el seguimiento.

  2. Los incidentes

    • Comience por definir el plan de comunicación de incidentes. ¿Qué partes interesadas deben ser informadas? ¿Cómo los mantendrá informados? ¿Quién supervisa los esfuerzos de coordinación? Recomendamos establecer un canal de chat interno para la comunicación y la coordinación.

    • Defina rutas de derivación para los equipos que apoyan su carga de trabajo, especialmente si el equipo no tiene una rotación de guardia. En función de su nivel de soporte, también puede registrar un caso con AWS Support.

    • Cree una guía de estrategias para investigar el incidente. Debe incluir el plan de comunicación y los pasos detallados de la investigación. Incluya la comprobación del AWS Health Dashboard en su investigación.

    • Documente su plan de respuesta a incidentes. Comunique el plan de gestión de incidentes para que los clientes internos y externos comprendan las normas de actuación y lo que se espera de ellos. Forme a los miembros de su equipo en cómo usarlo.

    • Los clientes pueden usar Incident Manager para establecer y gestionar su plan de respuesta a incidentes.

    • Los clientes de Enterprise Support pueden solicitar el Taller de gestión de incidentes a su gerente técnico de cuentas. Este taller guiado pone a prueba su actual plan de respuesta a incidentes y le ayuda a identificar áreas de mejora.

  3. Problemas

    • Los problemas deben identificarse y seguirse en el sistema ITSM.

    • Identifique todos los problemas conocidos y priorícelos según el esfuerzo para solucionarlos y según el impacto en la carga de trabajo.

      Matriz de prioridades de acciones para priorizar los problemas.
    • Resuelva primero los problemas de alto impacto y bajo esfuerzo. Una vez resueltos estos, pase a los problemas que entran en el cuadrante de bajo impacto y bajo esfuerzo.

    • Puede usar Systems Manager OpsCenter para identificar estos problemas, adjuntarles runbooks y hacer un seguimiento de los mismos.

Nivel de esfuerzo para el plan de implementación: Medio Se necesita tanto un proceso como herramientas para implementar esta práctica recomendada. Documente sus procesos y póngalos a disposición de cualquier persona relacionada con la carga de trabajo. Actualícelos con frecuencia. Tiene un proceso para gestionar los problemas y mitigarlos o solucionarlos.

Recursos

Prácticas recomendadas relacionadas:

Documentos relacionados:

Vídeos relacionados:

Ejemplos relacionados:

Servicios relacionados: