Monitorar os recursos da workload - Pilar Confiabilidade

Monitorar os recursos da workload

Os logs e as métricas são uma ferramenta poderosa para saber a integridade das suas cargas de trabalho. Você pode configurar sua carga de trabalho para monitorar logs e métricas e enviar notificações quando os limites forem ultrapassados ou em caso de eventos importantes. O monitoramento permite que sua carga de trabalho reconheça quando limites de baixa performance são ultrapassados ou ocorrem falhas, para que ela possa se recuperar automaticamente em resposta.

O monitoramento é essencial para garantir que você esteja cumprindo seus requisitos de disponibilidade. Seu monitoramento precisa detectar falhas de modo eficaz. O pior modo de falha é a falha “silenciosa”, em que a funcionalidade não está mais ativa, mas não há como detectar isso a não ser indiretamente. Seus clientes sabem antes de você. Alertá-lo quando ocorrem problemas é um dos principais motivos para monitorar. Seus alertas devem ser desassociados dos sistemas o máximo possível. Se a interrupção no serviço não permitir que você receba alertas, o período de interrupção será maior.

Na AWS, instrumentamos nossas aplicações em vários níveis. Registramos latência, taxas de erros e disponibilidade para cada solicitação, para todas as dependências e para as principais operações no processo. Registramos métricas de operação bem-sucedida também. Isso nos permite ver problemas iminentes antes que ocorram. Não consideramos apenas a latência média. Nós nos concentramos ainda mais em exceções de latência, como 99,9 e 99,99 percentil. Isso ocorre porque, se uma solicitação de 1.000 ou 10.000 for lenta, isso ainda será uma experiência ruim. Também, embora sua média possa ser aceitável, se uma a cada 100 das suas solicitações causar latência extrema, ele acabará se tornando um problema à medida que seu tráfego aumenta.

O monitoramento na AWS consiste em quatro fases distintas:

  1. Geração – Monitorar todos os componentes da carga de trabalho

  2. Agregação – Definir e calcular métricas

  3. Processamento e alarmes em tempo real – Enviar notificações e automatizar respostas

  4. Armazenamento e estudo analítico