I costi dei tempi di inattività e l'emergere dell'ingegneria del caos - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

I costi dei tempi di inattività e l'emergere dell'ingegneria del caos

L'Information Technology Intelligence Consulting (ITIC) stima che il 90% delle aziende debba affrontare costi superiori a 300.000 dollari per ora di inattività, mentre il 41% supera i 1,5 milioni di dollari all'ora. Oltre alla perdita immediata di fatturato, i tempi di inattività possono portare a problemi a lungo termine, tra cui errori di conformità, abbassamento dei prezzi delle azioni, significativi costi di mitigazione e persino danni al marchio.

Sebbene i tempi di inattività siano comunemente associati ai sistemi online che generano entrate, l'impatto negativo si estende ben oltre. Tutte le grandi aziende e organizzazioni, indipendentemente dal loro modello di fatturato principale, si affidano in modo fondamentale alla disponibilità dei propri sistemi interni, come le risorse umane e le buste paga.

I tempi di inattività che influiscono su questi servizi interni fondamentali possono inibire la capacità di un'azienda di funzionare, con conseguenti sostanziali interruzioni operative e ripercussioni finanziarie. I problemi che ne derivano possono includere quanto segue:

  • Ritardi nel pagamento di dipendenti e fornitori

  • Impossibilità di elaborare gli ordini o le transazioni dei clienti

  • Violazioni di dati sensibili consentite da sistemi di sicurezza compromessi

  • Perdita di produttività e opportunità di guadagno

  • Sanzioni normative in caso di non conformità

  • Danni alla reputazione del marchio

L'ingegneria del caos introduce intenzionalmente interruzioni controllate. L'uso dell'ingegneria del caos per comprendere o verificare la risposta del sistema ai guasti è diventata una pratica fondamentale per migliorare la resilienza del sistema. L'ingegneria del caos consente all'organizzazione di scoprire in modo proattivo i problemi, convalidare i meccanismi di resilienza e, in ultima analisi, ridurre il rischio di tempi di inattività non pianificati e i relativi costi. I vantaggi dell'ingegneria del caos includono quanto segue:

  • Esposizione del debito tecnico

  • Esercizio dei muscoli operativi

  • Rafforzare la fiducia nei sistemi

  • Identificazione dei punti di guasto

  • Migliorare il monitoraggio e l'osservabilità

  • Sostenere l'apprendimento basato sugli esperimenti

  • Offrire una maggiore resilienza per ridurre i tempi di inattività

Man mano che i sistemi diventano più complessi e le aspettative dei clienti aumentano, l'ingegneria del caos sta diventando sempre più importante. Gartner consiglia l'ingegneria del caos come pratica fondamentale per le organizzazioni per ridurre i tempi di inattività non pianificati e migliorare la resilienza.

Le sfide di adozione dell'ingegneria del caos

Sebbene l'ingegneria del caos sia una pratica sempre più importante per migliorare la resilienza dei sistemi, la sua adozione può incontrare i seguenti ostacoli:

  • Percezioni errate sul rischio ‒ Un'errata percezione comune è che l'ingegneria del caos venga condotta solo in ambienti di produzione, il che porta a temere un rischio eccessivo. Questa percezione deriva da una mancanza di comprensione della natura sistematica e controllata delle pratiche di ingegneria del caos. Come indicato nel AWS Well-Architected Framework, esegui prima la simulazione dei guasti in un ambiente non di produzione.

  • Valore aziendale a lungo termine ‒ I vantaggi di Chaos engineering si accumulano gradualmente, rendendo difficile quantificare il valore aziendale e giustificare l'investimento iniziale. Il ROI più lento rende difficile per le organizzazioni stabilire le priorità e attenersi all'ingegneria del caos.

  • Lacune nelle competenze e nelle competenze ‒ L'ingegneria del caos richiede un insieme unico di competenze e competenze che potrebbero non essere immediatamente disponibili all'interno dell'organizzazione. Lo sviluppo o l'acquisizione di queste competenze può rappresentare un ostacolo significativo, soprattutto per le organizzazioni che sono nuove alla pratica e quelle con risorse limitate.

Il resto di questo documento strategico si concentrerà principalmente sulla seconda sfida, che consiste nel dimostrare il valore aziendale dell'ingegneria del caos.

Gli effetti cumulativi dell'ingegneria del caos

A differenza dei progetti tecnologici tradizionali con date di inizio e fine ben definite, l'ingegneria del caos è una pratica continua di apprendimento continuo e miglioramento continuo della resilienza del sistema. I vantaggi dell'ingegneria del caos si aggravano nel tempo.

Man mano che i sistemi si evolvono e diventano più complessi, emergono nuove modalità di errore. Sono necessari ulteriori esperimenti sul caos per identificare potenziali problemi. La risoluzione di un problema può richiedere mesi, soprattutto nelle grandi aziende con sistemi e processi complessi o quando i guasti sono di proprietà di fornitori di servizi esterni.

Il cambiamento culturale verso l'accettazione del fallimento come opportunità di apprendimento e miglioramento cresce nel corso degli anni e diventa radicato nell'organizzazione. Gli investimenti nell'automazione degli esperimenti di ingegneria del caos e nello sviluppo di strumenti di supporto continuano a semplificare e migliorare la pratica dell'ingegneria del caos. Lo sviluppo di questa conoscenza istituzionale e della comprensione della resilienza del sistema è un processo graduale che si accumula nel tempo. Le conoscenze, i processi e gli strumenti sviluppati attraverso l'ingegneria del caos aumentano di valore man mano che la pratica matura insieme ai sistemi in continua evoluzione.

Il diagramma seguente mostra come il valore aumenta nel tempo man mano che l'adozione del caos progredisce attraverso le seguenti fasi:

  • Adozione iniziale

  • Apprendimento

  • Analisi in modalità di errore

  • Esperimenti una tantum

  • Periodico GameDays

  • Sperimentazione continua

Il valore aumenta gradualmente all'inizio e aumenta più rapidamente dopo una sola sperimentazione.

Come illustrato nel diagramma, i vantaggi dell'ingegneria del caos spesso iniziano prima che qualsiasi guasto venga iniettato nel sistema. Il processo di pianificazione e progettazione degli esperimenti sul caos fornisce di per sé un valore immediato. L'identificazione di potenziali scenari di fallimento, singoli punti di errore e aree di incertezza nel sistema porta a miglioramenti.

Ad esempio, annotare gli scenari di errore e discutere dei potenziali effetti a cascata, un processo chiamato analisi della modalità e degli effetti di errore (FMEA), aiuta a scoprire punti deboli o lacune evidenti che potrebbero essere stati trascurati. L'organizzazione può affrontare questi problemi in modo proattivo, anche prima di sottoporre il sistema a interruzioni intenzionali. Per ulteriori informazioni, consulta il framework di analisi della resilienza.

Inoltre, la maggiore attenzione all'osservabilità e al monitoraggio del sistema, che spesso accompagna le iniziative di ingegneria del caos, inizia a fornire vantaggi fin da subito. Migliorare la visibilità sul comportamento del sistema e sulle modalità di errore aiuta il team a comprendere meglio le normali condizioni operative del sistema. Una maggiore visibilità aiuta anche il team a capire in che modo le condizioni operative peggiorano, si adattano e si guastano quando vengono spinte al limite.

Sia la modalità sperimentale una tantum che quella periodica sono approcci più manuali rispetto alla GameDay modalità di sperimentazione continua. Richiedono un processo più pratico ed esplorativo, in cui gli ingegneri modellano e perfezionano attivamente le ipotesi attraverso le loro osservazioni ed esperimenti.

La modalità di sperimentazione continua è, invece, di natura più automatizzata. Questa modalità si concentra sull'esecuzione di ipotesi approvate e convalidate in modo controllato e iterativo. Utilizza l'automazione e l'integrazione nel processo di sviluppo attraverso una pipeline dedicata al caos per garantire esperimenti coerenti e ripetibili.