OPS08-BP04 Criar alertas acionáveis - AWS Well-Architected Framework

OPS08-BP04 Criar alertas acionáveis

Detectar e responder prontamente aos desvios no comportamento da sua aplicação é crucial. É essencial reconhecer quando os resultados com base nos indicadores-chave de performance (KPIs) estão em risco ou quando surgem anomalias inesperadas. Basear alertas em KPIs garante que os sinais que você recebe estejam diretamente vinculados ao impacto comercial ou operacional. Essa abordagem de alertas acionáveis promove respostas proativas e ajuda a manter o desempenho e a confiabilidade do sistema.

Resultado desejado: Receba alertas oportunos, relevantes e acionáveis para rápida identificação e mitigação de possíveis problemas, especialmente quando os resultados do KPI estão em risco.

Antipadrões comuns:

  • A configuração de muitos alertas não críticos leva à fadiga de alertas.

  • A não priorização de alertas com base em KPIs dificulta a compreensão do impacto comercial dos problemas.

  • A não abordagem das causas-raiz leva a alertas repetitivos para o mesmo problema.

Benefícios de estabelecer esta prática recomendada:

  • Redução da fadiga de alertas ao se concentrar em alertas acionáveis e relevantes.

  • Maior disponibilidade e confiabilidade do sistema por meio da detecção e mitigação proativas de problemas.

  • Colaboração em equipe aprimorada e resolução mais rápida de problemas por meio da integração com ferramentas populares de alerta e comunicação.

Nível de risco exposto se esta prática recomendada não for estabelecida: alto

Orientação para implementação

Para criar um mecanismo de alerta eficaz, é fundamental usar métricas, logs e dados de rastreamento que sinalizem quando os resultados com base nos KPIs estão em risco ou quando anomalias são detectadas.

Etapas da implementação

  1. Determine indicadores-chave de performance (KPIs): Identifique os KPIs de sua aplicação. Os alertas devem estar vinculados a esses KPIs para refletir com precisão o impacto nos negócios.

  2. Implemente a detecção de anomalias:

    • Use o AWS Cost Anomaly Detection: configure o AWS Cost Anomaly Detection para detectar automaticamente padrões incomuns, garantindo que os alertas sejam gerados somente para anomalias genuínas.

    • Use o X-Ray Insights:

      1. Configure o X-Ray Insights para detectar anomalias nos dados de rastreamento.

      2. Configure notificações no X-Ray Insights para ser alertado sobre problemas detectados.

    • Integre com o DevOps Guru:

      1. Utilize o Amazon DevOps Guru devido a seus recursos de machine learning na detecção de anomalias operacionais com dados existentes.

      2. Navegue até as configurações de notificação no DevOps Guru para configurar alertas de anomalias.

  3. Implemente alertas acionáveis: Crie alertas que forneçam informações adequadas para ação imediata.

  4. Reduza a fadiga de alarmes: Minimize os alertas não críticos. Equipes sobrecarregadas com vários alertas insignificantes podem não perceber problemas críticos e a eficácia geral do mecanismo de alerta fica diminuída.

  5. Configurar alarmes compostos: Use os alarmes compostos do Amazon CloudWatch para consolidar vários alarmes.

  6. Integre com ferramentas de alerta: Incorpore ferramentas como Ops Genie e PagerDuty.

  7. Utilize o Amazon Q Developer in chat applications integre o Amazon Q Developer in chat applicationspara retransmitir alertas para Chime, Microsoft Teams e Slack.

  8. Alerta baseado em logs: Use o filtros de métrica de log no CloudWatch para criar alarmes com base em eventos de log específicos.

  9. Revise e repita: Revise e revisite regularmente as configurações de alerta.

Nível de esforço do plano de implementação: Médio.

Recursos

Práticas recomendadas relacionadas:

Documentos relacionados:

Vídeos relacionados:

Exemplos relacionados: