O ciclo de vida do incidente no Incident Manager - Incident Manager

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

O ciclo de vida do incidente no Incident Manager

O AWS Systems Manager Incident Manager fornece uma estrutura passo a passo com base nas práticas recomendadas para identificar e reagir a incidentes, como interrupções no serviço ou ameaças à segurança. O foco principal do Incident Manager é ajudar a restaurar os serviços ou aplicativos afetados ao normal o mais rápido possível por meio de uma solução completa de gerenciamento do ciclo de vida de incidentes.

O Incident Manager fornece ferramentas e práticas recomendadas para cada fase do ciclo de vida do incidente:

O ciclo de vida do incidente flui ciclicamente de alertas e engajamento à triagem, investigação, análise pós-incidente e de volta a alertas e engajamento.

Alertas e engajamento

A fase de alerta e engajamento do ciclo de vida do incidente visa conscientizar sobre incidentes nos aplicativos e serviços. Essa fase começa antes que um incidente seja detectado e exige uma compreensão profunda dos aplicativos. Você pode usar as métricas do Amazon CloudWatch para monitorar dados sobre o desempenho dos aplicativos ou utilizar o Amazon EventBridge para agregar alertas de diferentes fontes, aplicativos e serviços. Depois de configurar o monitoramento de seus aplicativos, você pode começar a alertar sobre métricas que fogem da norma histórica. Para saber mais sobre como monitorar as práticas recomendadas, consulte Monitorar.

Para dar suporte aos respondentes no diagnóstico de incidentes, ative o atributo Descobertas no Incident Manager. As Descobertas são informações sobre implantações do AWS CodeDeploy e atualizações de pilha do AWS CloudFormation da época de um incidente. Ter essas informações economiza tempo na avaliação de possíveis causas, o que pode reduzir o tempo médio de recuperação (MTTR) de um incidente.

Agora que você monitora incidentes nos aplicativos, é possível definir um plano de resposta a incidentes para usar durante incidentes. Para saber mais sobre como criar planos de resposta, consulte Como trabalhar com planos de resposta no Incident Manager. Os eventos do Amazon EventBridge ou os Alarmes do CloudWatch podem criar automaticamente um incidente usando planos de resposta como modelo. Para saber mais sobre como criar incidentes, consulte Criação de incidentes no Incident Manager.

Os planos de resposta lançam os respectivos planos de escalonamento e planos de engajamento para envolver os primeiros a responder no incidente. Para obter mais informações sobre como configurar planos de escalonamento, consulte Criar um plano de escalação. Simultaneamente, o AWS Chatbot notifica os respondentes usando um canal de chat direcionando os respondentes para a página de detalhes do incidente. Usando o canal de chat e os detalhes do incidente, a equipe pode se comunicar e fazer a triagem de um incidente. Para obter mais informações sobre configuração de canais de chat no Incident Manager, consulte Tarefa 2: criar um canal de chat no AWS Chatbot.

Triagem

A triagem é quando os respondentes tentam determinar o impacto nos clientes. A visualização dos detalhes do incidente no console do Incident Manager fornece aos respondentes cronogramas e métricas para ajudar a avaliar o incidente. A avaliação do impacto de um incidente também estabelece as bases para o tempo de resposta, resolução e comunicação do incidente. Os respondentes priorizam os incidentes usando classificações de impacto de 1 (crítico) a 5 (sem impacto).

Sua organização pode definir o escopo exato de cada classificação de impacto da maneira que preferir. A tabela a seguir fornece exemplos de como normalmente é definido cada nível de impacto.

Código de impacto Nome do impacto Escopo definido por amostra
1 Critical

Falha total do aplicativo que afeta a maioria dos clientes.

2 High

Falha total do aplicativo que afeta uma parte dos clientes.

3 Medium

Falha parcial do aplicativo que afeta o cliente.

4 Low

Falhas intermitentes que têm impacto limitado nos clientes.

5 No Impact

Os clientes não estão sendo afetados no exato momento, mas é necessária uma ação urgente para evitar um impacto.

Investigação e mitigação

A visualização de detalhes do incidente fornece à equipe runbooks, cronogramas e métricas. Para ver como você pode lidar com um incidente, consulte os Detalhes do incidente.

Os runbooks geralmente fornecem etapas de investigação e podem extrair dados ou tentar as soluções mais comuns automaticamente. Os runbooks também fornecem etapas claras e reproduzíveis, que sua equipe já tenha achado útil ao mitigar incidentes. A guia runbook foca na etapa atual do runbook e mostra as etapas anteriores e as próximas.

O Incident Manager faz uma integração com o Systems Manager Automation para criar runbooks. Use runbooks para:

  • Gerenciar instâncias e recursos da AWS

  • Executar scripts automaticamente

  • Gerenciar recursos do AWS CloudFormation

Para obter mais informações sobre as ações de automação, consulte Referência de ações do Systems Manager Automation no Guia do usuário do AWS Systems Manager.

A guia Cronograma mostra quais ações foram tomadas. A linha do tempo registra cada um com um carimbo de data/hora e detalhes criados automaticamente. Para adicionar eventos personalizados à linha do tempo, consulte a seção Linha do tempo na página Detalhes do incidente deste guia do usuário.

A guia Diagnóstico mostra métricas preenchidas automaticamente e métricas adicionadas manualmente. Essa visualização fornece informações valiosas sobre as atividades do aplicativo durante um incidente.

A guia Engajamentos permite adicionar mais contatos ao incidente e ajuda a fornecer os recursos para que o contato envolvido se atualize rapidamente depois de acionado. Os contatos são engajados seguindo os planos de escalonamento ou planos de engajamento pessoal definidos.

Pelo canal de chat, é possível interagir diretamente com o incidente e com outros respondentes da sua equipe. Com o AWS Chatbot, é possível configurar canais de chat no Slack, no Microsoft Teams e no Amazon Chime. Nos canais do Slack e do Microsoft Teams, os respondentes podem interagir com incidentes diretamente do canal de chat usando vários comandos do ssm-incidents. Para obter mais informações, consulte Como interagir pelo canal de chat.

Análise pós-incidente

O Incident Manager fornece toda a estrutura para refletir sobre um incidente, tomar as medidas necessárias para evitar que o incidente ocorra novamente no futuro e para melhorar as atividades gerais de resposta a incidentes. Entre as melhorias estão:

  • Alterações nos aplicativos envolvidos em um incidente. Sua equipe pode usar esse tempo para melhorar o sistema e torná-lo mais tolerante a falhas.

  • Mudanças no plano de resposta a incidentes. Reserve um tempo para incorporar as lições aprendidas.

  • Mudanças nos runbooks. Sua equipe pode se aprofundar nas etapas necessárias para a resolução e nas etapas que podem automatizar.

  • Alterações nos alertas. Depois de um incidente, sua equipe pode ter notado pontos críticos nas métricas que podem ser usados para alertar a equipe muito antes sobre um incidente.

O Incident Manager facilita essas possíveis melhorias aplicando um questionário de análise pós-incidente e itens de ação junto com o cronograma do incidente. Para saber mais sobre as melhorias por meio de análise, consulte Como realizar uma análise pós-incidente no Incident Manager.