OPS08-BP04 Criar alertas acionáveis - AWS Well-Architected Framework

OPS08-BP04 Criar alertas acionáveis

Detectar e responder prontamente aos desvios no comportamento da sua aplicação é crucial. É essencial reconhecer quando os resultados com base nos indicadores-chave de performance (KPIs) estão em risco ou quando surgem anomalias inesperadas. Basear alertas em KPIs garante que os sinais que você recebe estejam diretamente vinculados ao impacto comercial ou operacional. Essa abordagem de alertas acionáveis promove respostas proativas e ajuda a manter a performance e a confiabilidade do sistema.

Resultado desejado: receber alertas oportunos, relevantes e acionáveis para rápida identificação e mitigação de possíveis problemas, especialmente quando os resultados de KPI estão em risco.

Antipadrões comuns:

  • A configuração de muitos alertas não críticos gera fadiga de alertas.

  • A não priorização de alertas com base em KPIs dificulta a compreensão do impacto comercial dos problemas.

  • A não abordagem das causas-raiz ocasiona alertas repetitivos para o mesmo problema.

Benefícios de estabelecer esta desta prática recomendada:

  • Redução da fadiga de alertas ao se concentrar em alertas acionáveis e relevantes.

  • Maior disponibilidade e confiabilidade do sistema por meio da detecção e mitigação proativas de problemas.

  • Colaboração em equipe aprimorada e resolução mais rápida de problemas por meio da integração com ferramentas conhecidas de alerta e comunicação.

Nível de exposição a riscos se esta prática recomendada não for estabelecida: alto

Orientações para a implementação

Para criar um mecanismo de alerta eficaz, é fundamental usar métricas, logs e dados de rastreamento que sinalizem quando os resultados com base nos KPIs estão em risco ou quando anomalias são detectadas.

Etapas da implementação

  1. Determine os principais indicadores de performance (KPIs): identifique os KPIs da aplicação. Os alertas devem estar vinculados a esses KPIs para refletir com precisão o impacto nos negócios.

  2. Implemente a detecção de anomalias:

  3. Implemente alertas acionáveis: crie alertas que forneçam informações adequadas para ação imediata.

    1. Monitore eventos do AWS Health com regras do Amazon EventBridge ou integre programaticamente com a API do AWS Health para automatizar ações ao receber eventos do AWS Health. Podem ser ações gerais, como enviar todas as mensagens planejadas de eventos do ciclo de vida para uma interface de chat, ou ações específicas, como o início de um fluxo de trabalho em uma ferramenta de gerenciamento de serviços de TI.

  4. Reduza a fadiga dos alertas: minimize os alertas não críticos. Quando as equipes ficam sobrecarregadas com vários alertas insignificantes, elas podem não perceber problemas críticos, o que diminui a eficácia geral do mecanismo de alerta.

  5. Configure alarmes compostos: use alarmes compostos do Amazon CloudWatch para consolidar vários alarmes.

  6. Integre com ferramentas de alerta: incorpore ferramentas, como Ops Genie e PagerDuty.

  7. Utilize o AWS Chatbot: integre o AWS Chatbot para transmitir alertas ao Amazon Chime, ao Microsoft Teams e ao Slack.

  8. Alerte com base em logs: use filtros de métricas de log no CloudWatch para criar alarmes com base em eventos de log específicos.

  9. Revise e itere: revise e refine regularmente as configurações de alerta.

Nível de esforço do plano de implementação: médio

Recursos

Práticas recomendadas relacionadas:

Documentos relacionados:

Vídeos relacionados:

Exemplos relacionados: