Apêndice C ‒ Classificação de incidentes - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Apêndice C ‒ Classificação de incidentes

O rastreamento de incidentes em uma estrutura de classificação é crucial porque a estrutura fornece uma visão holística dos tipos de falhas e problemas que afetam o sistema. Se sua organização monitora incidentes somente dentro de uma única classe, como falhas de infraestrutura, você pode perder insights e oportunidades de melhoria em outras áreas. Ao rastrear incidentes em várias classes, você obtém uma melhor compreensão da diversidade de experimentos de caos a serem conduzidos. Essa perspectiva ajuda a identificar possíveis pontos cegos e apoia a expansão do escopo de engenharia, o que leva a um sistema mais resiliente e tolerante a falhas.

A estrutura de classificação de incidentes sugerida foi projetada para ajudar a categorizar os incidentes com base em sua natureza e impacto potencial. Ele usa uma classificação de alto nível que agrupa os incidentes em oito categorias principais:

  • Problemas de implantação:

    • Implantações com falha

    • Falhas de reversão

    • Problemas de configuração durante a implantação

  • Erros e regressões de software:

    • Erros funcionais

    • Problemas de integração

    • Problemas de desempenho

    • Problemas de cota

    • Problemas do mecanismo de resiliência (novas tentativas, tempos limite)

    • Problemas de integridade de dados

  • Problemas de teste:

    • Testes faltantes

    • Testes ineficazes

    • Testes escamosos

  • Falhas na infraestrutura:

    • Falhas de hardware (servidores, dispositivos de rede, armazenamento)

    • Problemas de escalabilidade

    • Falhas de dependência (serviços de terceiros) APIs

    • Problemas de conectividade de rede

  • Problemas operacionais:

    • Erros humanos (configuração incorreta, alterações acidentais)

    • Falhas de monitoramento e alerta

    • Problemas de planejamento de capacidade

    • Falhas de backup e restauração

  • Incidentes de segurança:

    • Tentativas de acesso não autorizado

    • Violações de dados

    • Ataques de negação de serviço (DoS)

  • Interrupções no serviço de terceiros:

    • Interrupções no provedor de nuvem

    • Falhas de DNS

    • Interrupções externas de API e serviços

  • Fatores ambientais:

    • Desastres naturais (terremotos, incêndios, inundações, quedas de energia)

    • Problemas relacionados ao clima

Este é um exemplo de estrutura de classificação não conclusivo que você pode adaptar para atender às suas necessidades e organização específicas. Recomendamos revisar e atualizar a estrutura de classificação periodicamente à medida que seu sistema evolui ou surgem novos tipos de incidentes.