REL06-BP06 Realizar revisões regularmente - Pilar Confiabilidade

REL06-BP06 Realizar revisões regularmente

Revise frequentemente o modo como o monitoramento da workload está implementado e atualize-o com base em eventos e alterações significativos.

O monitoramento eficaz é orientado pelas principais métricas de negócios. Certifique-se de que essas métricas sejam acomodadas em sua workload à medida que as prioridades de negócios mudarem.

Auditar seu monitoramento ajuda a garantir que você saiba quando uma aplicação está atingindo as respectivas metas de disponibilidade. A análise de causa-raiz requer a capacidade de descobrir o que aconteceu quando as falhas ocorrem. A AWS fornece serviços que permitem rastrear o estado dos seus serviços durante um incidente:

  • Amazon CloudWatch Logs: armazene seus logs neste serviço e inspecione seu conteúdo.

  • Amazon CloudWatch Logs Insights: um serviço totalmente gerenciado que permite analisar logs massivos em segundos. Ele oferece consultas e visualizações rápidas e interativas. 

  • AWS Config: permite ver qual infraestrutura da AWS estava em uso em diferentes instantes.

  • AWS CloudTrail: permite ver quais APIs da AWS foram invocadas a que horas e por qual entidade principal.

Na AWS, fazemos uma reunião semanal para revisar a performance operacional e compartilhar aprendizado entre as equipes. Como há inúmeras equipes na AWS, criamos o The Wheel para escolher aleatoriamente uma workload a ser analisada. Estabelecer um ritmo regular para análises de performance operacional e compartilhamento de conhecimento aprimora sua capacidade de obter uma performance superior de suas equipes operacionais.

Práticas comuns que devem ser evitadas:

  • Coletar apenas as métricas padrão.

  • Definir uma estratégia de monitoramento e nunca revisá-la.

  • Não analisar o monitoramento quando alterações importantes são implantadas.

Benefícios de implementar esta prática recomendada: a revisão regular do monitoramento permite a antecipação de possíveis problemas, em vez de reagir a notificações quando um problema previsto realmente ocorrer.

Nível de risco exposto se esta prática recomendada não for estabelecida: Médio

Orientação para implementação

  • Crie vários painéis para a workload. Você deve ter um painel superior com as principais métricas de negócios e as métricas técnicas identificadas como as mais relevantes à integridade projetada da workload conforme a variação do uso. Você também deve ter painéis para vários níveis e dependências da aplicação que podem ser inspecionados.

  • Programe e realize revisões regulares dos painéis da workload. Realize uma inspeção regular dos painéis. É possível ter cadências diferentes para a profundidade de inspeção.

    • Inspecione as tendências nas métricas. Compare os valores das métricas com os valores históricos para ver se há tendências que possam indicar algo que precise ser investigado. Exemplos incluem: aumento da latência, diminuição da função principal de negócios e aumento das respostas a falhas.

    • Verifique se há pontos fora da curva ou anomalias em suas métricas. As médias ou os valores medianos podem mascarar pontos fora da curva e anomalias. Examine os valores mais altos e mais baixos durante o período e investigue as causas das pontuações extremas. À medida que você continua a eliminar essas causas, a redução da definição de extremo permite melhorar cada vez mais a consistência da performance da workload.

    • Procure mudanças bruscas no comportamento. Uma mudança imediata na quantidade ou na direção de uma métrica pode indicar que houve uma alteração na aplicação ou talvez você precise de fatores externos para adicionar outras métricas para rastrear.

Recursos

Documentos relacionados: