OPS10-BP02 Ter um processo por alerta
Estabelecer um processo claro e definido para cada alerta em seu sistema é essencial para um gerenciamento eficaz e eficiente de incidentes. Essa prática garante que cada alerta leve a uma resposta específica e acionável, melhorando a confiabilidade e a capacidade de resposta de suas operações.
Resultado desejado: cada alerta inicia um plano de resposta específico e bem definido. Sempre que possível, as respostas são automatizadas, com propriedade clara e um caminho de escalação definido. Os alertas estão vinculados a uma base de conhecimento atualizada para que qualquer operador possa responder de forma consistente e eficaz. As respostas são rápidas e uniformes em todos os setores, aumentando a eficiência e a confiabilidade operacionais.
Práticas comuns que devem ser evitadas:
-
Os alertas não têm um processo de resposta predefinido, o que leva a resoluções improvisadas e atrasadas.
-
A sobrecarga de alertas faz com que alertas importantes sejam ignorados.
-
Os alertas são tratados de forma inconsistente devido à falta de propriedade e responsabilidade claras.
Benefícios de implementar esta prática recomendada:
-
Redução da fadiga dos alertas ao gerar apenas alertas acionáveis.
-
Diminuição do tempo médio de resolução (MTTR) para problemas operacionais.
-
Diminuição do tempo médio de investigação (MTTI), o que ajuda a reduzir o MTTR.
-
Capacidade aprimorada para escalar respostas operacionais.
-
Consistência e confiabilidade aprimoradas no tratamento de eventos operacionais.
Nível de risco exposto se esta prática recomendada não for estabelecida: Alto
Orientação para implementação
Ter um processo por alerta envolve estabelecer um plano de resposta claro para cada alerta, automatizar as respostas sempre que possível e refinar constantemente esses processos com base no feedback operacional e nos requisitos em evolução.
Etapas de implementação
O seguinte diagrama ilustra o fluxo de trabalho de gerenciamento de incidentes dentro do AWS Systems Manager Incident Manager
-
Use alarmes compostos: crie alarmes compostos no CloudWatch para agrupar alarmes relacionados, reduzindo o ruído e permitindo respostas mais significativas.
-
Integre os alarmes do Amazon CloudWatch ao Incident Manager: configure os alarmes do CloudWatch para criar automaticamente incidentes no AWS Systems Manager Incident Manager.
-
Integre o Amazon EventBridge ao Incident Manager: crie regras do EventBridge para reagir a eventos e criar incidentes usando planos de resposta definidos.
-
Prepare-se para incidentes no Incident Manager:
-
Estabeleça planos de resposta detalhados no Incident Manager para cada tipo de alerta.
-
Estabeleça canais de chat via AWS Chatbot conectados aos planos de resposta no Incident Manager, facilitando a comunicação em tempo real durante incidentes em plataformas como Slack, Microsoft Teams e Amazon Chime.
-
Incorpore os runbooks do Systems Manager Automation no Incident Manager para gerar respostas automatizadas aos incidentes.
-
Recursos
Práticas recomendadas relacionadas:
Documentos relacionados:
Vídeos relacionados:
Exemplos relacionados: