Etapa 5: responda e aprenda - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Etapa 5: responda e aprenda

Mesmo com todas as práticas acima, podem ocorrer eventos que influenciam a resiliência geral do aplicativo. É importante aprender com essas experiências quando elas ocorrem. Esta etapa se concentra na implementação de práticas para responder e capturar aprendizados de tais eventos disruptivos. Muitas startups têm uma equipe que trabalha muito de perto e tem recursos limitados para essa fase. No entanto, é importante usar mecanismos padrão para um foco consistente e contínuo na resiliência. Recomendamos que você implemente os seguintes mecanismos:

  • Análise de incidentes — Use seus sistemas de emissão de bilhetes ou sistemas de gerenciamento de projetos existentes para capturar detalhes importantes. Você não precisa configurar uma nova ferramenta ou processo para se concentrar nos relatórios pós-evento. Capture detalhes do evento, como o que causou a deficiência, capturas de tela de alarmes ou painéis, quais ações foram tomadas para corrigi-lo e quais ações foram tomadas para evitá-lo no futuro.

  • Realizar análises — Analise as ações de acompanhamento de incidentes em discussões regulares da equipe para acompanhar o progresso. Isso proporciona a toda a equipe a oportunidade de aprender com o evento. Atribua proprietários e defina claramente as próximas etapas.

  • Base de conhecimento de incidentes — Capturar detalhes à medida que o evento avança economiza tempo posteriormente. Isso ajuda a criar uma base de conhecimento pesquisável à medida que sua equipe se expande. Use ferramentas leves, como documentos compartilhados, ferramentas de bate-papo, recursos de rastreamento de bugs em sistemas de emissão de bilhetes ou wikis existentes. Crie um modelo padronizado para registrar detalhes da análise e revisões de incidentes.