OPS07-BP04 Usar guías de estrategias para investigar problemas - AWS Well-Architected Framework

OPS07-BP04 Usar guías de estrategias para investigar problemas

Las guías de estrategias son guías paso a paso que se utilizan para investigar un incidente. Cuando se producen incidentes, se usan para investigar, determinar el impacto e identificar la causa raíz. Las guías de estrategias se utilizan en diversas situaciones, desde despliegues erróneos hasta incidentes de seguridad. En numerosos casos, identifican la causa raíz que un runbook sirve para mitigar. Las guías de estrategias son un componente esencial de los planes de respuesta a incidentes de su organización.

Una buena guía de estrategias tiene varias características clave. Orienta al usuario, paso a paso, a través del proceso de descubrimiento. Viéndolo desde fuera, ¿qué pasos debería seguir alguien para diagnosticar un incidente? Defina de forma clara en la guía de estrategias si se necesitan herramientas especiales o permisos de alto nivel en ella. El hecho de contar con un plan de comunicación para informar a las partes interesadas sobre el estado de la investigación es un componente clave. En las situaciones en las que no se pueda identificar la causa raíz, la guía de estrategias debe tener un plan de traslado a una instancia superior. Si se identifica la causa raíz, la guía de estrategias debe señalar un runbook que describa cómo resolverla. Las guías de estrategias deben almacenarse de forma centralizada y se debe realizar un mantenimiento periódico de ellas. Si se utilizan para alertas específicas, facilite a su equipo indicaciones sobre cada guía de estrategias en cada alerta.

A medida que madure su organización, automatice las guías de estrategias. Empiece con guías de estrategias que cubran incidentes de poco riesgo. Utilice scripting para automatizar los pasos de descubrimiento. Asegúrese de que dispone de runbooks complementarios para mitigar las causas raíz más habituales.

Resultado deseado: su organización dispone de guías de estrategias para incidentes comunes. Dichas guías de estrategias se almacenan en una ubicación central y están a disposición de los miembros del equipo y se actualizan con frecuencia. Se crean runbooks complementarios para cualquier causa raíz conocida.

Patrones comunes de uso no recomendados:

  • No existe una forma estándar de investigar un incidente.

  • Los miembros del equipo confían en la memoria muscular o en el conocimiento institucional para solucionar un despliegue con errores.

  • Los nuevos miembros del equipo aprenden a investigar los problemas con el método de ensayo y error.

  • Las prácticas recomendadas para investigar los problemas no se comparten entre los equipos.

Beneficios de establecer esta práctica recomendada:

  • Las guías de estrategias impulsan sus esfuerzos para mitigar los incidentes.

  • Los distintos miembros del equipo pueden utilizar la misma guía de estrategias para identificar la causa raíz de forma coherente.

  • Las causas raíz conocidas pueden tener runbooks desarrollados para ellas, lo que acelera el tiempo de recuperación.

  • Las guías de estrategias permiten a los miembros del equipo empezar a contribuir antes.

  • Los equipos pueden escalar sus procesos con guías de estrategias repetibles.

Nivel de riesgo expuesto si no se establece esta práctica recomendada: Medio

Guía para la implementación

La forma de crear y utilizar las guías de estrategias depende de la madurez de su organización. Si es la primera vez que utiliza la nube, cree guías de estrategias en formato de texto en un repositorio de documentos central. A medida que madure su organización, las guías de estrategias pueden semiautomatizarse con lenguajes de scripting como Python. Estos scripts pueden ejecutarse en un cuaderno de Jupyter para acelerar el descubrimiento. Las organizaciones avanzadas cuentan con guías de estrategias completamente automatizadas para los problemas más habituales que se solucionan de forma automática con runbooks.

Elabore una lista de incidentes comunes que afectan a la carga de trabajo para empezar a crear las guías de estrategias. Como punto de partida, elija guías para incidentes con poco riesgo y en los que la causa raíz se haya reducido a unos pocos problemas. Una vez que disponga de guías de estrategias para las situaciones más sencillas, continúe con las de mayor riesgo o cuya causa raíz no se conozca bien.

Sus guías de estrategias en texto deben automatizarse a medida que su organización madura. Con servicios como las automatizaciones de AWS Systems Manager, el texto sin formato puede transformarse en automatizaciones. Estas automatizaciones pueden ejecutarse en la carga de trabajo para acelerar las investigaciones. Se pueden activar en respuesta a los incidentes, lo que reduce el tiempo medio para descubrir y resolver los incidentes.

Los clientes pueden usar AWS Systems Manager Incident Manager para responder a los incidentes. Este servicio proporciona una interfaz única para clasificar los incidentes, informar a las partes interesadas durante el descubrimiento y la mitigación y colaborar durante todo el incidente. Utiliza las automatizaciones de AWS Systems Manager para acelerar la detección y la recuperación.

Ejemplo de cliente

La empresa AnyCompany Retail se ha visto afectada por un incidente de producción. El ingeniero de guardia utilizó una guía de estrategias para investigar el problema. A medida que iba realizando los pasos, informaba a las partes interesadas clave identificadas en la guía de estrategias. El ingeniero identificó la causa raíz como una condición de secuencia (race condition) en un servicio backend. Mediante un runbook, el ingeniero relanzó el servicio, con lo que AnyCompany Retail volvió a estar en línea.

Pasos para la aplicación

Si no tiene un repositorio de documentos, le sugerimos que cree uno de control de versiones para su biblioteca de guías de estrategias. Puede crear las guías de estrategias con Markdown, que es compatible con la mayoría de los sistemas de automatización de este tipo de guías. Si está empezando desde cero, utilice la siguiente plantilla de guía de estrategias de ejemplo.

# Título de la guía de estrategias ## Información de la guía de estrategias | ID de la guía de estrategias | Descripción | Herramientas usadas | Permisos especiales | Autor de la guía de estrategias | Última actualización | Punto de contacto de derivación | Partes interesadas | Plan de comunicación | |-------|-------|-------|-------|-------|-------|-------|-------|-------| | RUN001 | ¿Cuál es la finalidad de esta guía de estrategias? ¿Para qué incidente se usa? | Herramientas | Permisos | Su nombre | 21-09-2022 | Nombre de derivación | Nombre de parte interesada | ¿Cómo se comunicarán las actualizaciones durante la investigación? | ## Pasos 1. Paso uno 2. Paso dos
  1. Si no tiene un repositorio de documentos o un wiki, cree un nuevo repositorio de control de versiones para las guías de instrucciones en su sistema de control de versiones.

  2. Identifique un problema común que requiera una investigación. Este debería ser un escenario en el que la causa raíz se limita a unos pocos problemas y la resolución conlleva poco riesgo.

  3. Con la plantilla Markdown, rellene la sección Título de la guía de estrategias y los campos situados debajo de Información de la guía de estrategias.

  4. Rellene los pasos de solución adicionales. Indique con la mayor claridad posible las acciones que se deben realizar o las áreas que debe investigar.

  5. Entregue a un miembro del equipo la guía de estrategias y pídale que la revise para validarla. Si falta algo o no está claro, actualice la guía de estrategias.

  6. Publique la guía de estrategias en el repositorio de documentos e informe al equipo y a las partes interesadas.

  7. Esta biblioteca de guías de estrategias crecerá a medida que vaya agregando más guías. Una vez que tenga varias guías de estrategias, empiece a automatizarlas con herramientas como AWS Systems Manager Automations para sincronizar la automatización y las guías de estrategias.

Nivel de esfuerzo para el plan de implementación: bajo. Las guías de estrategias deben ser documentos de texto almacenados en una ubicación central. Las organizaciones más maduras se inclinarán por la automatización de las guías de estrategias.

Recursos

Prácticas recomendadas relacionadas:

Documentos relacionados:

Vídeos relacionados:

Ejemplos relacionados:

Servicios relacionados: