Los costos de inactividad y el surgimiento de la ingeniería del caos - AWS Guía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Los costos de inactividad y el surgimiento de la ingeniería del caos

La consultora de inteligencia tecnológica de la información (ITIC) estima que el 90 por ciento de las empresas se enfrentan a costes que superan los 300 000$ por hora de inactividad, y que el 41 por ciento supera los 1 a 5 millones de dólares por hora. Además de la pérdida inmediata de ingresos, el tiempo de inactividad puede provocar problemas a largo plazo, como incumplimientos, bajadas de los precios de las acciones, importantes costes de mitigación e incluso daños a la marca.

Si bien el tiempo de inactividad suele asociarse a los sistemas en línea que generan ingresos, el impacto negativo va mucho más allá. Todas las grandes empresas y organizaciones, independientemente de su modelo de ingresos principal, dependen en gran medida de la disponibilidad de sus sistemas internos, como los de recursos humanos y de nómina.

El tiempo de inactividad que afecta a estos servicios internos básicos puede inhibir la capacidad de funcionamiento de una empresa y provocar importantes interrupciones operativas y repercusiones financieras. Los problemas resultantes pueden incluir los siguientes:

  • Retrasos en el pago a los empleados y vendedores

  • Incapacidad para procesar los pedidos o transacciones de los clientes

  • Los sistemas de seguridad comprometidos permiten filtraciones de datos confidenciales

  • Pérdida de productividad y oportunidades de ingresos

  • Sanciones reglamentarias en caso de incumplimiento

  • Daño a la reputación de la marca

La ingeniería del caos introduce intencionadamente interrupciones controladas. El uso de la ingeniería del caos para comprender o verificar la respuesta del sistema a las deficiencias se ha convertido en una práctica fundamental para mejorar la resiliencia del sistema. La ingeniería del caos permite a su organización descubrir problemas de forma proactiva, validar los mecanismos de resiliencia y, en última instancia, reducir el riesgo de tiempos de inactividad no planificados y los costes asociados. Los beneficios de la ingeniería del caos incluyen los siguientes:

  • Revelando la deuda técnica

  • Ejercitar los músculos operativos

  • Fomentar la confianza en los sistemas

  • Identificar los puntos de falla

  • Mejorar el monitoreo y la observabilidad

  • Apoyar el aprendizaje basado en experimentos

  • Ofrecer una mayor resiliencia para reducir el tiempo de inactividad

A medida que los sistemas se vuelven más complejos y aumentan las expectativas de los clientes, la ingeniería del caos adquiere cada vez más importancia. Gartner recomienda la ingeniería del caos como una práctica fundamental para que las organizaciones reduzcan el tiempo de inactividad no planificado y mejoren la resiliencia.

Los desafíos de adopción de la ingeniería del caos

Si bien la ingeniería del caos es una práctica cada vez más importante para mejorar la resiliencia de los sistemas, su adopción puede enfrentarse a los siguientes obstáculos:

  • Percepciones erróneas sobre el riesgo: una idea errónea común es que la ingeniería del caos solo se lleva a cabo en entornos de producción, lo que genera preocupación por el riesgo excesivo. Esta percepción se debe a la falta de comprensión sobre la naturaleza sistemática y controlada de las prácticas de ingeniería del caos. Como se indica en el AWS Well-Architected Framework, primero realice la simulación de fallas en un entorno que no sea de producción.

  • A largo plazo para el valor empresarial: los beneficios de la ingeniería del caos se acumulan gradualmente, lo que dificulta la cuantificación del valor empresarial y la justificación de la inversión inicial. El menor retorno de la inversión dificulta que las organizaciones prioricen y sigan con la ingeniería del caos.

  • Brechas de habilidades y experiencia: la ingeniería del caos requiere un conjunto único de habilidades y conocimientos que tal vez no estén fácilmente disponibles en su organización. Desarrollar o adquirir esta experiencia puede ser un obstáculo importante, especialmente para las organizaciones que son nuevas en esta práctica y aquellas con recursos limitados.

El resto de este documento de estrategia se centrará principalmente en el segundo desafío, que consiste en demostrar el valor empresarial de la ingeniería del caos.

Los efectos acumulativos de la ingeniería del caos

A diferencia de los proyectos tecnológicos tradicionales con fechas de inicio y finalización bien definidas, la ingeniería del caos es una práctica continua de aprendizaje continuo y mejoras continuas en la resiliencia del sistema. Los beneficios de la ingeniería del caos se agravan con el tiempo.

A medida que los sistemas evolucionan y se vuelven más complejos, surgen nuevos modos de falla. Se necesitan más experimentos de caos para identificar posibles problemas. Solucionar un problema puede llevar meses, especialmente en grandes empresas con sistemas y procesos complejos, o cuando los fallos son propiedad de proveedores de servicios externos.

El cambio cultural hacia aceptar el fracaso como una oportunidad de aprendizaje y mejora crece con el paso de los años y se va arraigando en la organización. Las inversiones en la automatización de los experimentos de ingeniería del caos y en el desarrollo de herramientas de apoyo siguen agilizando y mejorando la práctica de la ingeniería del caos. Desarrollar este conocimiento institucional y comprender la resiliencia del sistema es un proceso gradual que se acumula con el tiempo. El conocimiento, los procesos y las herramientas desarrollados a través de la ingeniería del caos aumentan de valor a medida que la práctica madura junto con los sistemas en continua evolución.

El siguiente diagrama muestra cómo el valor aumenta con el tiempo a medida que la adopción del caos avanza en las siguientes etapas:

  • Adopción inicial

  • Aprendizaje

  • Análisis del modo de falla

  • Experimentos únicos

  • Periódico GameDays

  • Experimentación continua

El valor aumenta gradualmente al principio y aumenta más rápidamente después de una sola experimentación.

Como se muestra en el diagrama, los beneficios de la ingeniería del caos suelen empezar antes de que se produzca una avería en el sistema. El proceso de planificación y diseño de los experimentos de caos en sí mismo proporciona un valor inmediato. La identificación de posibles escenarios de falla, puntos únicos de falla y áreas de incertidumbre en el sistema conduce a mejoras.

Por ejemplo, anotar los escenarios de falla y analizar los posibles efectos en cascada, un proceso denominado análisis del modo y los efectos de las fallas (FMEA), ayuda a descubrir debilidades o brechas obvias que podrían haberse pasado por alto. Su organización puede abordar estos problemas de forma proactiva, incluso antes de que el sistema sufra interrupciones intencionadas. Para obtener más información, consulte el marco de análisis de resiliencia.

Además, el mayor enfoque en la observabilidad y el monitoreo del sistema, que suele acompañar a las iniciativas de ingeniería del caos, comienza a generar beneficios de inmediato. Mejorar la visibilidad del comportamiento del sistema y de los modos de fallo ayuda al equipo a comprender mejor las condiciones normales de funcionamiento del sistema. Una mayor visibilidad también ayuda al equipo a comprender cómo las condiciones de operación se degradan, se adaptan y fallan cuando se las lleva al límite.

Tanto el modo de experimento único como el GameDay modo periódico son enfoques más manuales en comparación con el modo de experimentación continua. Requieren un proceso más práctico y exploratorio, en el que los ingenieros diseñan y perfeccionan activamente las hipótesis a través de sus observaciones y experimentos.

El modo de experimentación continua es, por otro lado, de naturaleza más automatizada. Este modo se centra en ejecutar hipótesis aprobadas y validadas de forma controlada e iterativa. Utiliza la automatización y la integración en el proceso de desarrollo a través de un proceso de creación de caos específico para garantizar que los experimentos sean coherentes y repetibles.