OPS10-BP02 Ter um processo por alerta - Pilar Excelência operacional

OPS10-BP02 Ter um processo por alerta

Estabelecer um processo claro e definido para cada alerta em seu sistema é essencial para um gerenciamento eficaz e eficiente de incidentes. Essa prática garante que cada alerta leve a uma resposta específica e acionável, melhorando a confiabilidade e a capacidade de resposta de suas operações.

Resultado desejado: cada alerta inicia um plano de resposta específico e bem definido. Sempre que possível, as respostas são automatizadas, com propriedade clara e um caminho de escalação definido. Os alertas estão vinculados a uma base de conhecimento atualizada para que qualquer operador possa responder de forma consistente e eficaz. As respostas são rápidas e uniformes em todos os setores, aumentando a eficiência e a confiabilidade operacionais.

Práticas comuns que devem ser evitadas:

  • Os alertas não têm um processo de resposta predefinido, o que leva a resoluções improvisadas e atrasadas.

  • A sobrecarga de alertas faz com que alertas importantes sejam ignorados.

  • Os alertas são tratados de forma inconsistente devido à falta de propriedade e responsabilidade claras.

Benefícios de implementar esta prática recomendada:

  • Redução da fadiga dos alertas ao gerar apenas alertas acionáveis.

  • Diminuição do tempo médio de resolução (MTTR) para problemas operacionais.

  • Diminuição do tempo médio de investigação (MTTI), o que ajuda a reduzir o MTTR.

  • Capacidade aprimorada para escalar respostas operacionais.

  • Consistência e confiabilidade aprimoradas no tratamento de eventos operacionais.

Nível de risco exposto se esta prática recomendada não for estabelecida: Alto

Orientação para implementação

Ter um processo por alerta envolve estabelecer um plano de resposta claro para cada alerta, automatizar as respostas sempre que possível e refinar constantemente esses processos com base no feedback operacional e nos requisitos em evolução.

Etapas de implementação

O seguinte diagrama ilustra o fluxo de trabalho de gerenciamento de incidentes dentro do AWS Systems Manager Incident Manager. Ele foi projetado para responder rapidamente a problemas operacionais, criando automaticamente incidentes em resposta a eventos específicos do Amazon CloudWatch ou Amazon EventBridge. Quando um incidente é criado, automática ou manualmente, o Incident Manager centraliza o gerenciamento do incidente, organiza as informações relevantes dos recursos da AWS e inicia planos de resposta predefinidos. Isso inclui executar runbooks de automação do Systems Manager Automation para ação imediata, bem como criar um item de trabalho operacional principal no OpsCenter para rastrear tarefas e análises relacionadas. Esse processo simplificado acelera e coordena a resposta a incidentes em todo o seu ambiente da AWS.

Fluxograma que descreve como o Incident Manager funciona: AWS Chatbot, planos e contatos de escalação e runbooks movimentam-se para os planos de resposta, que movimentam-se para os incidentes e as análises. O Amazon CloudWatch também flui para planos de resposta.

  1. Use alarmes compostos: crie alarmes compostos no CloudWatch para agrupar alarmes relacionados, reduzindo o ruído e permitindo respostas mais significativas.

  2. Integre os alarmes do Amazon CloudWatch ao Incident Manager: configure os alarmes do CloudWatch para criar automaticamente incidentes no AWS Systems Manager Incident Manager.

  3. Integre o Amazon EventBridge ao Incident Manager: crie regras do EventBridge para reagir a eventos e criar incidentes usando planos de resposta definidos.

  4. Prepare-se para incidentes no Incident Manager:

    • Estabeleça planos de resposta detalhados no Incident Manager para cada tipo de alerta.

    • Estabeleça canais de chat via AWS Chatbot conectados aos planos de resposta no Incident Manager, facilitando a comunicação em tempo real durante incidentes em plataformas como Slack, Microsoft Teams e Amazon Chime.

    • Incorpore os runbooks do Systems Manager Automation no Incident Manager para gerar respostas automatizadas aos incidentes.

Recursos

Práticas recomendadas relacionadas:

Documentos relacionados:

Vídeos relacionados:

Exemplos relacionados: