Appendice C ‒ Classificazione degli incidenti

Il monitoraggio degli incidenti all'interno di un framework di classificazione è fondamentale perché il framework fornisce una visione olistica dei tipi di guasto e dei problemi che hanno un impatto sul sistema. Se l'organizzazione tiene traccia degli incidenti solo all'interno di un'unica categoria, ad esempio i guasti dell'infrastruttura, potrebbe perdere informazioni e opportunità di miglioramento in altre aree. Monitorando gli incidenti su più classi, si ottiene una migliore comprensione della vasta gamma di esperimenti sul caos da condurre. Questa prospettiva aiuta a identificare potenziali punti ciechi e supporta l'espansione dell'ambito ingegneristico, il che porta a un sistema più resiliente e tollerante ai guasti.

Il framework di classificazione degli incidenti suggerito è progettato per aiutare a classificare gli incidenti in base alla loro natura e al potenziale impatto. Utilizza una classificazione di alto livello che raggruppa gli incidenti in otto categorie principali:

Problemi di distribuzione:
- Implementazioni non riuscite
- Errori di rollback
- Problemi di configurazione durante la distribuzione
Bug e regressioni del software:
- Bug funzionali
- Problemi di integrazione
- Problemi di prestazioni
- Problemi relativi alle quote
- Problemi relativi al meccanismo di resilienza (nuovi tentativi, timeout)
- Problemi di integrità dei dati
Problemi relativi ai test:
- Test mancanti
- Test inefficaci
- Test Flaky
Guasti dell'infrastruttura:
- Guasti hardware (server, dispositivi di rete, storage)
- Problemi di scalabilità
- Errori di dipendenza (servizi di terze parti,) APIs
- Problemi di connettività di rete
Problemi operativi:
- Errori umani (configurazione errata, modifiche accidentali)
- Monitoraggio e segnalazione degli errori
- Problemi di pianificazione della capacità
- Errori di backup e ripristino
Incidenti di sicurezza:
- Tentativi di accesso non autorizzati
- Violazioni dei dati
- Attacchi Denial of Service (DoS)
Interruzioni del servizio di terze parti:
- Interruzioni dei provider di servizi cloud
- Guasti DNS
- Interruzioni esterne delle API e dei servizi
Fattori ambientali:
- Disastri naturali (terremoti, incendi, inondazioni, interruzioni di corrente)
- Problemi legati alle condizioni meteorologiche

Questo è un esempio non conclusivo di framework di classificazione che puoi personalizzare in base alle tue esigenze e alla tua organizzazione specifiche. Consigliamo di rivedere e aggiornare periodicamente il framework di classificazione man mano che il sistema si evolve o emergono nuovi tipi di incidenti.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Appendice B:

Cronologia dei documenti