OPS06-BP01 Planificar para hacer frente a los cambios infructuosos - Pilar de excelencia operativa

OPS06-BP01 Planificar para hacer frente a los cambios infructuosos

Planifique la reversión a un estado óptimo conocido o la corrección en el entorno de producción si un despliegue causa un resultado no deseado. Tener una política para establecer un plan de este tipo ayuda a todos los equipos a desarrollar estrategias para recuperarse de los cambios fallidos. Algunos ejemplos de estrategias son los pasos de despliegue y reversión, las políticas de cambio, los indicadores de características, el aislamiento del tráfico y el cambio de tráfico. Una sola versión puede incluir varios cambios de componentes relacionados. La estrategia debe proporcionar la capacidad de resistir o recuperarse de un error de cualquier cambio de componente.

Resultado deseado: ha preparado un plan de recuperación detallado para su cambio en caso de que no tenga éxito. Además, ha reducido el tamaño de su versión para minimizar el impacto potencial en otros componentes de la carga de trabajo. Como resultado, ha reducido su impacto empresarial al acortar el posible tiempo de inactividad causado por un cambio infructuoso y ha aumentado la flexibilidad y la eficiencia de los tiempos de recuperación.

Patrones comunes de uso no recomendados:

  • Ha realizado una implementación y la aplicación se comporta de forma inestable, aunque parece que hay usuarios activos en el sistema. Debe decidir si deshacer el cambio, lo que afectará a los usuarios activos, o esperar a revertir el cambio sabiendo que los usuarios pueden verse afectados igualmente.

  • Después de hacer un cambio de rutina, sus nuevos entornos son accesibles, pero una de sus subredes ha quedado inaccesible. Tiene que decidir si revertirlo todo o intentar reparar la subred inaccesible. Mientras toma esa decisión, no se podrá acceder a la subred.

  • Sus sistemas no tienen una arquitectura que permita actualizarlos con versiones más pequeñas. Como resultado, tiene dificultades para revertir esos cambios masivos durante un despliegue infructuoso.

  • No utiliza la infraestructura como código (IaC) y ha realizado actualizaciones manuales en su infraestructura que han dado lugar a una configuración no deseada. No puede realizar un seguimiento eficaz de los cambios manuales ni revertirlos.

  • Como no ha medido el aumento de la frecuencia de sus despliegues, su equipo no tiene incentivos para reducir el tamaño de los cambios y mejorar los planes de reversión para cada cambio, lo que genera más riesgos y mayores tasas de errores.

  • No se mide la duración total de una interrupción provocada por cambios infructuosos. Su equipo no puede establecer prioridades ni mejorar la eficacia del proceso de despliegue y del plan de recuperación.

Beneficios de establecer esta práctica recomendada: tener un plan para recuperarse de cambios fallidos minimiza el tiempo medio de recuperación (MTTR) y reduce el impacto en la organización.

Nivel de riesgo expuesto si no se establece esta práctica recomendada: Alto

Guía para la implementación

La adopción por parte de los equipos de lanzamiento de políticas y prácticas coherentes permite a la organización planificar lo que debe suceder si se producen cambios infructuosos. La política debe permitir aplicar correcciones temporales en circunstancias concretas. En cualquier situación, un plan de corrección temporal o reversión debe estar bien documentado y probado antes de desplegarlo en producción en vivo para minimizar el tiempo que lleva revertir un cambio.

Pasos para la implementación

  1. Documente las políticas que requieren que los equipos tengan planes efectivos para revertir los cambios dentro de un período específico.

    1. Las políticas deben especificar cuándo se permite una situación de corrección temporal.

    2. Exija un plan de reversión documentado al que puedan acceder todas las partes involucradas.

    3. Especifique los requisitos para la reversión (por ejemplo, cuando se descubra que se han desplegado cambios no autorizados).

  2. Analice el grado de impacto de todos los cambios relacionados con cada componente de una carga de trabajo.

    1. Permita que los cambios repetibles se estandaricen, se diseñen con plantillas y se autoricen previamente si siguen un flujo de trabajo coherente que aplique las políticas de cambio.

    2. Reduzca el impacto potencial de cualquier cambio mediante la reducción del tamaño del cambio para que la recuperación lleve menos tiempo y cause menos repercusión en la empresa.

    3. Asegúrese de que los procedimientos de reversión reviertan el código al estado correcto conocido para evitar incidentes siempre que sea posible.

  3. Integre herramientas y flujos de trabajo para aplicar sus políticas mediante programación.

  4. Haga que los datos sobre los cambios sean visibles para otros propietarios de cargas de trabajo para mejorar la velocidad de diagnóstico de cualquier cambio infructuoso que no se pueda revertir.

    1. Mida el éxito de esta práctica a través de datos de cambios visibles e identifique las mejoras iterativas.

  5. Utilice herramientas de supervisión para verificar el éxito o el fracaso de un despliegue a fin de acelerar la toma de decisiones sobre la reversión.

  6. Mida la duración de la interrupción durante un cambio infructuoso para mejorar continuamente sus planes de recuperación.

Nivel de esfuerzo para el plan de implementación: Medio

Recursos

Prácticas recomendadas relacionadas:

Documentos relacionados:

Vídeos relacionados: