OPS11-BP02 Executar análise pós-incidente - AWS Well-Architected Framework

OPS11-BP02 Executar análise pós-incidente

Analise os eventos que afetam o cliente e identifique fatores contribuintes e as ações preventivas. Use essas informações para desenvolver mitigações e limitar ou evitar recorrência. Desenvolva procedimentos para respostas rápidas e eficazes. Comunique os fatores contribuintes e as ações corretivas conforme apropriado, de acordo com o público-alvo.

Resultado desejado:

  • Você estabelece processos de gerenciamento de incidentes que incluem análise pós-incidente.

  • Você tem planos de observabilidade para coletar dados sobre eventos.

  • Com esses dados, você entende e coleta métricas que apoiam seu processo de análise pós-incidente.

  • Você aprende com os incidentes para melhorar os resultados futuros.

Antipadrões comuns:

  • Você administra um servidor de aplicações. Aproximadamente a cada 23 horas e 55 minutos, todas as sessões ativas são encerradas. Você tentou identificar o que está errado no servidor de aplicativos. Você suspeita que possa ser um problema de rede, mas não consegue obter colaboração da equipe da rede, pois ela está muito ocupada para ajudar você. Você não tem um processo predefinido a seguir para obter suporte e coletar as informações necessárias para determinar o que está acontecendo.

  • Você teve perda de dados em sua carga de trabalho. Esta é a primeira vez que isso acontece e a causa não é óbvia. Você decide que não é importante porque pode recriar os dados. A perda de dados começa a ocorrer com maior frequência, afetando seus clientes. Isso também coloca uma sobrecarga operacional adicional à medida que você restaura os dados ausentes.

Benefícios de estabelecer esta desta prática recomendada:

  • Você tem um processo predefinido para determinar componentes, condições, ações e eventos que contribuíram para um incidente, ajudando a identificar oportunidades de melhoria.

  • Você usa dados da análise pós-incidente para fazer melhorias.

Nível de exposição a riscos se esta prática recomendada não for estabelecida: alto

Orientações para a implementação

Use um processo para determinar fatores contribuintes. Analise todos os incidentes de impacto do cliente. Tenha um processo para identificar e documentar as causas de um incidente para que você possa desenvolver atenuações para limitar ou impedir a recorrência e para desenvolver procedimentos para respostas rápidas e eficazes. Comunique as causas principais do incidente conforme apropriado e adapte a comunicação ao seu público-alvo. Compartilhe os aprendizados abertamente em sua organização.

Etapas da implementação

  1. Colete métricas como mudança na implantação, mudança de configuração, hora de início do incidente, hora do alarme, hora do engajamento, hora de início da mitigação e hora de resolução do incidente.

  2. Descreva os principais pontos do cronograma para entender os eventos do incidente.

  3. Faça as seguintes perguntas:

    1. Você pode melhorar o tempo de detecção?

    2. Alguma atualização nas métricas e nos alarmes detectaria o incidente antes?

    3. Você pode melhorar o tempo até o diagnóstico?

    4. Alguma atualização em seus planos de resposta ou de escalonamento poderia acionar as pessoas certas antes?

    5. Você pode melhorar o tempo de mitigação?

    6. Existe alguma etapa do runbook ou do manual que você pode adicionar ou melhorar?

    7. Você pode evitar que futuros incidentes ocorram?

  4. Crie listas de verificação e ações. Acompanhe e realize todas as ações.

Nível de esforço do plano de implementação: médio

Recursos

Práticas recomendadas relacionadas:

Documentos relacionados: