Apêndice C ‒ Classificação de incidentes

O rastreamento de incidentes em uma estrutura de classificação é crucial porque a estrutura fornece uma visão holística dos tipos de falhas e problemas que afetam o sistema. Se sua organização monitora incidentes somente dentro de uma única classe, como falhas de infraestrutura, você pode perder insights e oportunidades de melhoria em outras áreas. Ao rastrear incidentes em várias classes, você obtém uma melhor compreensão da diversidade de experimentos de caos a serem conduzidos. Essa perspectiva ajuda a identificar possíveis pontos cegos e apoia a expansão do escopo de engenharia, o que leva a um sistema mais resiliente e tolerante a falhas.

A estrutura de classificação de incidentes sugerida foi projetada para ajudar a categorizar os incidentes com base em sua natureza e impacto potencial. Ele usa uma classificação de alto nível que agrupa os incidentes em oito categorias principais:

Problemas de implantação:
- Implantações com falha
- Falhas de reversão
- Problemas de configuração durante a implantação
Erros e regressões de software:
- Erros funcionais
- Problemas de integração
- Problemas de desempenho
- Problemas de cota
- Problemas do mecanismo de resiliência (novas tentativas, tempos limite)
- Problemas de integridade de dados
Problemas de teste:
- Testes faltantes
- Testes ineficazes
- Testes escamosos
Falhas na infraestrutura:
- Falhas de hardware (servidores, dispositivos de rede, armazenamento)
- Problemas de escalabilidade
- Falhas de dependência (serviços de terceiros) APIs
- Problemas de conectividade de rede
Problemas operacionais:
- Erros humanos (configuração incorreta, alterações acidentais)
- Falhas de monitoramento e alerta
- Problemas de planejamento de capacidade
- Falhas de backup e restauração
Incidentes de segurança:
- Tentativas de acesso não autorizado
- Violações de dados
- Ataques de negação de serviço (DoS)
Interrupções no serviço de terceiros:
- Interrupções no provedor de nuvem
- Falhas de DNS
- Interrupções externas de API e serviços
Fatores ambientais:
- Desastres naturais (terremotos, incêndios, inundações, quedas de energia)
- Problemas relacionados ao clima

Este é um exemplo de estrutura de classificação não conclusivo que você pode adaptar para atender às suas necessidades e organização específicas. Recomendamos revisar e atualizar a estrutura de classificação periodicamente à medida que seu sistema evolui ou surgem novos tipos de incidentes.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Apêndice B

Histórico do documento