Appendice C ‒ Classificazione degli incidenti - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Appendice C ‒ Classificazione degli incidenti

Il monitoraggio degli incidenti all'interno di un framework di classificazione è fondamentale perché il framework fornisce una visione olistica dei tipi di guasto e dei problemi che hanno un impatto sul sistema. Se l'organizzazione tiene traccia degli incidenti solo all'interno di un'unica categoria, ad esempio i guasti dell'infrastruttura, potrebbe perdere informazioni e opportunità di miglioramento in altre aree. Monitorando gli incidenti su più classi, si ottiene una migliore comprensione della vasta gamma di esperimenti sul caos da condurre. Questa prospettiva aiuta a identificare potenziali punti ciechi e supporta l'espansione dell'ambito ingegneristico, il che porta a un sistema più resiliente e tollerante ai guasti.

Il framework di classificazione degli incidenti suggerito è progettato per aiutare a classificare gli incidenti in base alla loro natura e al potenziale impatto. Utilizza una classificazione di alto livello che raggruppa gli incidenti in otto categorie principali:

  • Problemi di distribuzione:

    • Implementazioni non riuscite

    • Errori di rollback

    • Problemi di configurazione durante la distribuzione

  • Bug e regressioni del software:

    • Bug funzionali

    • Problemi di integrazione

    • Problemi di prestazioni

    • Problemi relativi alle quote

    • Problemi relativi al meccanismo di resilienza (nuovi tentativi, timeout)

    • Problemi di integrità dei dati

  • Problemi relativi ai test:

    • Test mancanti

    • Test inefficaci

    • Test Flaky

  • Guasti dell'infrastruttura:

    • Guasti hardware (server, dispositivi di rete, storage)

    • Problemi di scalabilità

    • Errori di dipendenza (servizi di terze parti,) APIs

    • Problemi di connettività di rete

  • Problemi operativi:

    • Errori umani (configurazione errata, modifiche accidentali)

    • Monitoraggio e segnalazione degli errori

    • Problemi di pianificazione della capacità

    • Errori di backup e ripristino

  • Incidenti di sicurezza:

    • Tentativi di accesso non autorizzati

    • Violazioni dei dati

    • Attacchi Denial of Service (DoS)

  • Interruzioni del servizio di terze parti:

    • Interruzioni dei provider di servizi cloud

    • Guasti DNS

    • Interruzioni esterne delle API e dei servizi

  • Fattori ambientali:

    • Disastri naturali (terremoti, incendi, inondazioni, interruzioni di corrente)

    • Problemi legati alle condizioni meteorologiche

Questo è un esempio non conclusivo di framework di classificazione che puoi personalizzare in base alle tue esigenze e alla tua organizzazione specifiche. Consigliamo di rivedere e aggiornare periodicamente il framework di classificazione man mano che il sistema si evolve o emergono nuovi tipi di incidenti.