PERF05-BP05 Use a automação para corrigir proativamente problemas relacionados ao desempenho
Use os indicadores-chave de performance (KPIs), aliados a sistemas de monitoramento e alerta, para abordar proativamente problemas relacionados à performance.
Antipadrões comuns:
-
Você só permite que a equipe de operações faça alterações operacionais na workload.
-
Você permite todos os filtros de alarmes para a equipe de operações, sem correção proativa.
Benefícios de estabelecer esta prática recomendada: A correção proativa de ações de alarme permite que a equipe de suporte se concentre nos itens que não são acionáveis automaticamente. Isso ajuda a equipe de operações a lidar com todos os alarmes sem ficar sobrecarregada e, em vez disso, se concentrar apenas nos alarmes críticos.
Nível de risco exposto se esta prática recomendada não for estabelecida: Baixo
Orientação para implementação
Sempre que possível, use alarmes para desencadear ações automatizadas visando corrigir problemas. Se a resposta automatizada não for possível, encaminhe o alarme para aqueles capazes de responder. Por exemplo, você pode ter um sistema capaz de prever os valores de indicadores-chave de desempenho (KPI) esperados e emitir um alarme quando eles ultrapassarem determinados limites, ou uma ferramenta capaz de interromper ou reverter automaticamente as implantações caso os KPIs estejam fora dos valores esperados.
Implemente processos que deem visibilidade à performance conforme sua carga de trabalho estiver sendo executada. Para determinar se a performance da carga de trabalho é ideal, crie painéis de monitoramento e estabeleça normas de linha de base para as expectativas de performance.
Etapas da implementação
-
Identifique e compreenda o problema de desempenho que pode ser corrigido automaticamente. Use soluções de monitoramento da AWS, como o Amazon CloudWatch ou o AWS X-Ray, para ajudar você a entender melhor a causa raiz do problema.
-
Crie um plano e um processo de correção detalhados que possam ser usados para corrigir automaticamente o problema.
-
Configure o gatilho para iniciar automaticamente o processo de correção. Por exemplo, você pode definir um acionador para reiniciar automaticamente uma instância quando ela atinge determinado limite de utilização da CPU.
-
Use serviços e tecnologias da AWS para automatizar o processo de correção. Por exemplo: AWS Systems Manager Automation fornece uma maneira segura e escalável de automatizar o processo de correção.
-
Teste o processo de correção automatizado em um ambiente de pré-produção.
-
Após o teste, implemente o processo de correção no ambiente de produção e monitore constantemente para identificar áreas de melhoria.
Recursos
Documentos relacionados:
Vídeos relacionados:
Exemplos relacionados: