Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.
Coûts des temps d'arrêt et émergence de l'ingénierie du chaos
L'Information Technology Intelligence Consulting (ITIC)
Bien que les temps d'arrêt soient généralement associés aux systèmes en ligne générateurs de revenus, l'impact négatif va bien au-delà de cela. Toutes les grandes entreprises et organisations, quel que soit leur principal modèle de revenus, dépendent de manière essentielle de la disponibilité de leurs systèmes internes, tels que les ressources humaines et la paie.
Les interruptions de service affectant ces services internes essentiels peuvent entraver la capacité d'une entreprise à fonctionner, entraînant des perturbations opérationnelles importantes et des répercussions financières. Les problèmes qui en résultent peuvent inclure les suivants :
-
Retards dans le paiement des employés et des fournisseurs
-
Incapacité de traiter les commandes ou les transactions des clients
-
Violations de données sensibles autorisées par des systèmes de sécurité compromis
-
Perte de productivité et opportunités de revenus
-
Sanctions réglementaires en cas de non-conformité
-
Atteinte à la réputation de la marque
L'ingénierie du chaos introduit intentionnellement des perturbations contrôlées. L'utilisation de l'ingénierie du chaos pour comprendre ou vérifier la réponse du système aux défaillances est devenue une pratique essentielle pour améliorer la résilience du système. L'ingénierie du chaos permet à votre organisation de détecter les problèmes de manière proactive, de valider les mécanismes de résilience et, en fin de compte, de réduire le risque d'interruptions imprévues et les coûts associés. Les avantages de l'ingénierie du chaos sont les suivants :
-
Exposer la dette technique
-
Exercer les muscles opérationnels
-
Renforcer la confiance dans les systèmes
-
Identifier les points de défaillance
-
Améliorer le suivi et l'observabilité
-
Soutenir l'apprentissage basé sur l'expérience
-
Améliorer la résilience pour réduire les temps d'arrêt
À mesure que les systèmes deviennent plus complexes et que les attentes des clients augmentent, l'ingénierie du chaos prend de plus en plus d'importance. Gartner recommande l'ingénierie du chaos
Les défis de l'adoption de l'ingénierie du chaos
Bien que l'ingénierie du chaos soit une pratique de plus en plus importante pour améliorer la résilience des systèmes, son adoption peut se heurter aux obstacles suivants :
-
Perceptions erronées à propos du risque ‒ Une idée fausse courante est que l'ingénierie du chaos n'est menée que dans les environnements de production, ce qui suscite des inquiétudes quant aux risques excessifs. Cette perception provient d'un manque de compréhension de la nature systématique et contrôlée des pratiques d'ingénierie du chaos. Comme indiqué dans le AWS Well-Architected Framework, effectuez d'abord une simulation de panne dans un environnement hors production.
-
Valeur commerciale à plus long terme ‒ Les avantages de Chaos Engineering augmentent progressivement, ce qui rend difficile la quantification de la valeur commerciale et la justification de l'investissement initial. En raison du retour sur investissement plus lent, les entreprises ont du mal à établir des priorités et à s'en tenir à l'ingénierie du chaos.
-
Lacunes en matière de compétences et d'expertise ‒ L'ingénierie du chaos nécessite un ensemble unique de compétences et d'expertise qui ne sont peut-être pas facilement disponibles au sein de votre organisation. Le développement ou l'acquisition de cette expertise peuvent constituer un obstacle important, en particulier pour les organisations qui débutent dans cette pratique et celles dont les ressources sont limitées.
Le reste de ce document de stratégie se concentrera principalement sur le deuxième défi, qui consiste à démontrer la valeur commerciale de l'ingénierie du chaos.
Les effets cumulatifs de l'ingénierie du chaos
Contrairement aux projets technologiques traditionnels dont les dates de début et de fin sont bien définies, l'ingénierie du chaos est une pratique continue d'apprentissage continu et d'amélioration continue de la résilience du système. Les avantages de l'ingénierie du chaos se multiplient au fil du temps.
À mesure que les systèmes évoluent et se complexifient, de nouveaux modes de défaillance apparaissent. D'autres expériences sur le chaos sont nécessaires pour identifier les problèmes potentiels. La résolution d'un problème peut prendre des mois, en particulier dans les grandes entreprises dotées de systèmes et de processus complexes, ou lorsque les défaillances sont le fait de fournisseurs de services externes.
Le changement culturel qui consiste à considérer l'échec comme une opportunité d'apprentissage et d'amélioration prend de l'ampleur au fil des années et s'ancre dans l'organisation. Les investissements dans l'automatisation des expériences d'ingénierie du chaos et le développement d'outils de soutien continuent de rationaliser et d'améliorer les pratiques d'ingénierie du chaos. L'acquisition de ces connaissances institutionnelles et de cette compréhension de la résilience du système est un processus graduel qui s'accumule au fil du temps. Les connaissances, les processus et les outils développés grâce à l'ingénierie du chaos gagnent en valeur à mesure que la pratique évolue parallèlement à l'évolution constante des systèmes.
Le schéma suivant montre comment la valeur augmente au fil du temps à mesure que l'adoption du chaos progresse selon les étapes suivantes :
-
Adoption initiale
-
L'apprentissage
-
Analyse du mode défaillance
-
Expériences ponctuelles
-
Périodique GameDays
-
Expérimentation continue

Comme le montre le schéma, les avantages de l'ingénierie du chaos commencent souvent avant qu'un défaut ne soit injecté dans le système. Le processus de planification et de conception d'expériences de chaos lui-même apporte une valeur immédiate. L'identification des scénarios de défaillance potentiels, des points de défaillance uniques et des zones d'incertitude dans le système permet d'apporter des améliorations.
Par exemple, la rédaction de scénarios de défaillance et la discussion des effets en cascade potentiels, un processus appelé analyse des modes de défaillance et des effets (FMEA) permet de découvrir des faiblesses ou des lacunes évidentes qui auraient pu être négligées. Votre organisation peut résoudre ces problèmes de manière proactive, avant même de soumettre le système à des perturbations intentionnelles. Pour plus d'informations, consultez le cadre d'analyse de résilience.
En outre, l'attention accrue portée à l'observabilité et à la surveillance du système qui accompagne souvent les initiatives d'ingénierie du chaos commence à porter ses fruits immédiatement. L'amélioration de la visibilité du comportement du système et des modes de défaillance aide l'équipe à mieux comprendre les conditions de fonctionnement normales du système. Une meilleure visibilité permet également à l'équipe de comprendre comment les conditions de fonctionnement se dégradent, s'adaptent et échouent lorsqu'elles sont poussées à leurs limites.
Les GameDay modes d'expérience ponctuelle et périodique sont des approches plus manuelles que le mode d'expérimentation continue. Ils nécessitent un processus plus pratique et exploratoire, dans le cadre duquel les ingénieurs élaborent et affinent activement les hypothèses par le biais de leurs observations et expériences.
Le mode d'expérimentation continue est, en revanche, de nature plus automatisée. Ce mode se concentre sur l'exécution d'hypothèses approuvées et validées de manière contrôlée et itérative. Il utilise l'automatisation et l'intégration dans le processus de développement par le biais d'un pipeline de chaos dédié