OPS04-BP02 Implementar a telemetria de aplicações - Pilar Excelência operacional

OPS04-BP02 Implementar a telemetria de aplicações

A telemetria de aplicações serve como base para a observabilidade da workload. É fundamental emitir uma telemetria que ofereça informações práticas sobre o estado de sua aplicação e a obtenção de resultados técnicos e comerciais. Da solução de problemas à medição do impacto de um novo recurso ou à garantia do alinhamento com os indicadores-chave de performance (KPIs) de negócios, a telemetria de aplicações informa a maneira como você cria, opera e desenvolve sua workload.

Métricas, logs e rastreamentos formam os três pilares principais da observabilidade. Eles servem como ferramentas de diagnóstico que descrevem o estado de sua aplicação. Com o tempo, eles auxiliam na criação de linhas de base e na identificação de anomalias. No entanto, para garantir o alinhamento entre as atividades de monitoramento e os objetivos de negócios, é fundamental definir e monitorar os KPIs. Os KPIs de negócios geralmente facilitam a identificação de problemas em comparação com métricas técnicas isoladas.

Outros tipos de telemetria, como monitoramento de usuários reais (RUM) e transações sintéticas, complementam essas fontes de dados primárias. O RUM oferece informações sobre as interações do usuário em tempo real, enquanto as transações sintéticas simulam possíveis comportamentos do usuário, ajudando a detectar gargalos antes que usuários reais os encontrem.

Resultado desejado: obtenha insights práticos sobre a performance de sua workload. Esses insights permitem que você tome decisões proativas sobre otimização de performance, tenha maior estabilidade da workload, simplifique os processos de CI/CD e utilize recursos de forma eficaz.

Antipadrões comuns:

  • Observabilidade incompleta: negligência da incorporação da observabilidade em todas as camadas da workload, resultando em pontos cegos que podem obscurecer insights vitais sobre performance e comportamento do sistema.

  • Visualização fragmentada dos dados: quando os dados estão espalhados por várias ferramentas e sistemas, torna-se difícil manter uma visão completa da integridade e da performance da workload.

  • Problemas relatados pelo usuário: um sinal de que falta a detecção proativa de problemas por meio da telemetria e do monitoramento de KPI de negócios.

Benefícios de estabelecer esta desta prática recomendada:

  • Tomada de decisão informada: com insights de telemetria e KPIs de negócios, você pode tomar decisões orientadas por dados.

  • Eficiência operacional aprimorada: a utilização de recursos orientada por dados gera redução de custos.

  • Estabilidade aprimorada da workload: detecção e resolução de problemas mais rápidas, gerando um melhor tempo de atividade.

  • Processos simplificados de CI/CD: os insights dos dados de telemetria facilitam o refinamento dos processos e a entrega confiável do código.

Nível de exposição a riscos se esta prática recomendada não for estabelecida: alto

Orientações para a implementação

Para implementar a telemetria de aplicações para a workload, use serviços da AWS, como o Amazon CloudWatch e o AWS X-Ray. O Amazon CloudWatch fornece um conjunto abrangente de ferramentas de monitoramento, permitindo que você observe os recursos e as aplicações na AWS e em ambientes on-premises. Ele coleta, rastreia e analisa métricas, consolida e monitora dados de log e reage às mudanças em seus recursos, aprimorando sua compreensão de como a workload opera. Em conjunto, o AWS X-Ray permite rastrear, analisar e depurar suas aplicações, oferecendo uma compreensão profunda do comportamento da workload. Com recursos, como mapas de serviços, distribuições de latência e cronogramas de rastreamento, o AWS X-Ray fornece insights sobre a performance da workload e os gargalos que a afetam.

Etapas da implementação

  1. Identifique quais dados coletar: garanta as métricas, os logs e os rastreamentos essenciais que ofereçam insights substanciais sobre a integridade, a performance e o comportamento da workload.

  2. Implante o agente do CloudWatch: o agente do CloudWatch é fundamental na aquisição de métricas do sistema e da aplicação e de logs da workload e da infraestrutura subjacente. O atendente do CloudWatch também pode ser usado para coletar OpenTelemetry ou rastreamentos do X-Ray e enviá-los ao X-Ray.

  3. Implemente a detecção de anomalias para logs e métricas: use a detecção de anomalias do CloudWatch Logs e a detecção de anomalias de métricas do CloudWatch para identificar automaticamente atividades incomuns nas operações da aplicação. Essas ferramentas usam algoritmos de machine learning para detectar e alertar sobre anomalias, o que aprimora os recursos de monitoramento e acelera o tempo de resposta a possíveis interrupções ou ameaças à segurança. Configure esses recursos para gerenciar proativamente a integridade e a segurança das aplicações.

  4. Proteja dados de log confidenciais: use a proteção de dados do Amazon CloudWatch Logs para mascarar informações confidenciais nos logs. Esse recurso ajuda a manter a privacidade e a conformidade por meio da detecção automática e do mascaramento de dados confidenciais antes de serem acessados. Implemente o mascaramento de dados para tratar e proteger com segurança detalhes confidenciais, como informações de identificação pessoal (PII).

  5. Defina e monitore os KPIs comerciais: estabeleça métricas personalizadas que se alinhem aos resultados da empresa.

  6. Instrumente a aplicação com o AWS X-Ray: além de implantar o atendente do CloudWatch, é essencial instrumentar a aplicação para emitir dados de rastreamento. Esse processo pode fornecer mais insights sobre o comportamento e a performance da workload.

  7. Padronize a coleta de dados na aplicação: padronize as práticas de coleta de dados em toda a aplicação. A uniformidade ajuda a correlacionar e analisar dados, fornecendo uma visão abrangente do comportamento da aplicação.

  8. Implemente a observabilidade entre contas: melhore a eficiência do monitoramento entre Contas da AWS com a observabilidade entre contas do Amazon CloudWatch. Com esse recurso, é possível consolidar métricas, logs e alarmes de contas diferentes em uma única visualização, o que simplifica o gerenciamento e melhora os tempos de resposta para problemas identificados em todo o ambiente da AWS da organização.

  9. Analise e aja com base nos dados: quando a coleta e a normalização dos dados estiverem em vigor, use o Amazon CloudWatch para análise de métricas e logs e o AWS X-Ray para análise de rastreamento. Essa análise pode gerar informações cruciais sobre a integridade, a performance e o comportamento da workload, orientando o processo de tomada de decisão.

Nível de esforço do plano de implementação: alto

Recursos

Práticas recomendadas relacionadas:

Documentos relacionados:

Vídeos relacionados:

Exemplos relacionados: