Annexe C ‒ Classification des incidents - AWS Directives prescriptives

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Annexe C ‒ Classification des incidents

Le suivi des incidents au sein d'un cadre de classification est crucial, car celui-ci fournit une vue globale des types de défaillances et des problèmes qui ont un impact sur le système. Si votre organisation ne suit les incidents que dans une seule catégorie, tels que les défaillances d'infrastructure, vous risquez de rater des informations et des opportunités d'amélioration dans d'autres domaines. En suivant les incidents relevant de plusieurs catégories, vous pouvez mieux comprendre la diversité des expériences de chaos à mener. Cette perspective permet d'identifier les angles morts potentiels et d'élargir le champ d'ingénierie, ce qui conduit à un système plus résilient et tolérant aux pannes.

Le cadre de classification des incidents suggéré est conçu pour aider à classer les incidents en fonction de leur nature et de leur impact potentiel. Il utilise une classification de haut niveau qui regroupe les incidents en huit catégories principales :

  • Problèmes de déploiement :

    • Déploiements échoués

    • Défaillances liées au rollback

    • Problèmes de configuration lors du déploiement

  • Bugs et régressions du logiciel :

    • Bugs fonctionnels

    • Problèmes d'intégration

    • Problèmes de performance

    • Problèmes liés aux quotas

    • Problèmes liés au mécanisme de résilience (nouvelles tentatives, délais d'attente)

    • Problèmes d'intégrité des données

  • Problèmes liés aux tests :

    • Tests manquants

    • Tests inefficaces

    • Tests floconneux

  • Défaillances de l'infrastructure :

    • Défaillances matérielles (serveurs, périphériques réseau, stockage)

    • Problèmes de dimensionnement

    • Défaillances de dépendance (services tiers, APIs)

    • Problèmes de connectivité réseau

  • Problèmes opérationnels :

    • Erreurs humaines (mauvaise configuration, modifications accidentelles)

    • Surveillance et alerte en cas de panne

    • Problèmes liés à la planification des capacités

    • Défaillances de sauvegarde et de restauration

  • Incidents de sécurité :

    • Tentatives d'accès non autorisées

    • Violations de données

    • Attaques par déni de service (DoS)

  • Pannes de service tiers :

    • Pannes des fournisseurs de cloud

    • Défaillances du DNS

    • Interruptions de service et d'API externes

  • Facteurs environnementaux :

    • Catastrophes naturelles (tremblements de terre, incendies, inondations, pannes de courant)

    • Problèmes liés aux conditions météorologiques

Il s'agit d'un exemple de cadre de classification non concluant que vous pouvez adapter à vos besoins spécifiques et à votre organisation. Nous vous recommandons de revoir et de mettre à jour régulièrement le cadre de classification à mesure que votre système évolue ou que de nouveaux types d'incidents apparaissent.