PERF05-BP05 Usar automação para corrigir proativamente problemas relacionados a performance
Use indicadores-chave de performance (KPIs), aliados a sistemas de monitoramento e alerta, para abordar proativamente problemas relacionados à performance.
Práticas comuns que devem ser evitadas:
-
Você só permite que a equipe de operações faça alterações operacionais na workload.
-
Você permite todos os filtros de alarmes para a equipe de operações, sem correção proativa.
Benefícios de implementar esta prática recomendada: a correção proativa de ações de alarme permite que a equipe de suporte se concentre nos itens que não são acionáveis automaticamente. Isso ajuda a equipe de operações a lidar com todos os alarmes sem ficar sobrecarregada e, em vez disso, se concentrar apenas nos alarmes críticos.
Nível de risco exposto se esta prática recomendada não for estabelecida: Baixo
Orientação para implementação
Sempre que possível, use alarmes para desencadear ações automatizadas visando corrigir problemas. Se a resposta automatizada não for possível, encaminhe o alarme para aqueles capazes de responder. Por exemplo, você pode ter um sistema capaz de prever os valores de indicadores-chave de performance (KPI) esperados e emitir um alarme quando eles ultrapassarem determinados limites, ou uma ferramenta capaz de interromper ou reverter automaticamente as implantações caso os KPIs estejam fora dos valores esperados.
Implemente processos que deem visibilidade à performance à medida que a workload estiver sendo executada. Para determinar se a performance da workload é ideal, crie painéis de monitoramento e estabeleça normas de linha de base para as expectativas de performance.
Etapas de implementação
-
Identifique o fluxo de trabalho de correção: identifique e compreenda o problema de performance que pode ser corrigido automaticamente. Use soluções de monitoramento da AWS como o Amazon CloudWatch ou o AWS X-Ray para obter ajuda para entender melhor a causa-raiz do problema.
-
Defina o processo de automação: crie um plano e um processo de correção detalhados que possam ser usados para corrigir automaticamente o problema.
-
Configure o evento de iniciação: configure o evento para iniciar automaticamente o processo de correção. Por exemplo, você pode definir um acionador para reiniciar automaticamente uma instância quando ela atinge determinado limite de utilização da CPU.
-
Automatize a correção: use serviços e tecnologias da AWS para automatizar o processo de correção. Por exemplo, o AWS Systems Manager Automation fornece uma maneira segura e escalável de automatizar o processo de correção. Use a lógica de autocorreção para reverter as alterações se elas não conseguirem resolver o problema.
-
Teste o fluxo de trabalho: teste o processo de correção automatizado em um ambiente de pré-produção.
-
Implemente o fluxo de trabalho: implemente a correção automatizada no ambiente de produção.
-
Desenvolva um playbook: desenvolva e documente um playbook que descreva as etapas do plano de correção, incluindo os eventos de iniciação, a lógica de correção e as ações tomadas. Treine as partes interessadas para ajudá-las a responder com eficácia aos eventos de correção automatizada.
-
Revise e refine: avalie regularmente a eficácia do fluxo de trabalho automatizado de correção. Ajuste os eventos de iniciação e a lógica de correção, se necessário.
Recursos
Documentos relacionados:
Vídeos relacionados:
-
AWS re:Invent 2023: Estratégias para escalação automatizada, correção e autocorreção inteligente
-
AWS re:Invent 2023: [LANÇAMENTO] Monitoramento de aplicações para workloads modernas
-
AWS re:Invent 2023: Como implementar a observabilidade de aplicações
-
AWS re:Invent 2021: Automatizar de forma inteligente as operações na nuvem
-
AWS re:Invent 2022: Configurar controles em escala em seu ambiente da AWS
-
AWS re:Invent 2022: Automatizar o gerenciamento e a conformidade de patches usando a AWS
-
AWS re:Invent 2022: Como a Amazon usa métricas melhores para aprimorar a performance de sites
-
AWS re:Invent 2023: Relaxe: diagnostique e resolva problemas de performance com o Amazon RDS
Exemplos relacionados: