As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Apêndice C ‒ Classificação de incidentes
O rastreamento de incidentes em uma estrutura de classificação é crucial porque a estrutura fornece uma visão holística dos tipos de falhas e problemas que afetam o sistema. Se sua organização monitora incidentes somente dentro de uma única classe, como falhas de infraestrutura, você pode perder insights e oportunidades de melhoria em outras áreas. Ao rastrear incidentes em várias classes, você obtém uma melhor compreensão da diversidade de experimentos de caos a serem conduzidos. Essa perspectiva ajuda a identificar possíveis pontos cegos e apoia a expansão do escopo de engenharia, o que leva a um sistema mais resiliente e tolerante a falhas.
A estrutura de classificação de incidentes sugerida foi projetada para ajudar a categorizar os incidentes com base em sua natureza e impacto potencial. Ele usa uma classificação de alto nível que agrupa os incidentes em oito categorias principais:
-
Problemas de implantação:
-
Implantações com falha
-
Falhas de reversão
-
Problemas de configuração durante a implantação
-
-
Erros e regressões de software:
-
Erros funcionais
-
Problemas de integração
-
Problemas de desempenho
-
Problemas de cota
-
Problemas do mecanismo de resiliência (novas tentativas, tempos limite)
-
Problemas de integridade de dados
-
-
Problemas de teste:
-
Testes faltantes
-
Testes ineficazes
-
Testes escamosos
-
-
Falhas na infraestrutura:
-
Falhas de hardware (servidores, dispositivos de rede, armazenamento)
-
Problemas de escalabilidade
-
Falhas de dependência (serviços de terceiros) APIs
-
Problemas de conectividade de rede
-
-
Problemas operacionais:
-
Erros humanos (configuração incorreta, alterações acidentais)
-
Falhas de monitoramento e alerta
-
Problemas de planejamento de capacidade
-
Falhas de backup e restauração
-
-
Incidentes de segurança:
-
Tentativas de acesso não autorizado
-
Violações de dados
-
Ataques de negação de serviço (DoS)
-
-
Interrupções no serviço de terceiros:
-
Interrupções no provedor de nuvem
-
Falhas de DNS
-
Interrupções externas de API e serviços
-
-
Fatores ambientais:
-
Desastres naturais (terremotos, incêndios, inundações, quedas de energia)
-
Problemas relacionados ao clima
-
Este é um exemplo de estrutura de classificação não conclusivo que você pode adaptar para atender às suas necessidades e organização específicas. Recomendamos revisar e atualizar a estrutura de classificação periodicamente à medida que seu sistema evolui ou surgem novos tipos de incidentes.