Monitorar os recursos da workload
Os logs e as métricas são uma ferramenta poderosa para saber a integridade das suas cargas de trabalho. Você pode configurar sua carga de trabalho para monitorar logs e métricas e enviar notificações quando os limites forem ultrapassados ou em caso de eventos importantes. O monitoramento permite que sua carga de trabalho reconheça quando limites de baixa performance são ultrapassados ou ocorrem falhas, para que ela possa se recuperar automaticamente em resposta.
O monitoramento é essencial para garantir que você esteja cumprindo seus requisitos de disponibilidade. Seu monitoramento precisa detectar falhas de modo eficaz. O pior modo de falha é a falha “silenciosa”, em que a funcionalidade não está mais ativa, mas não há como detectar isso a não ser indiretamente. Seus clientes sabem antes de você. Alertá-lo quando ocorrem problemas é um dos principais motivos para monitorar. Seus alertas devem ser desassociados dos sistemas o máximo possível. Se a interrupção no serviço não permitir que você receba alertas, o período de interrupção será maior.
Na AWS, instrumentamos nossas aplicações em vários níveis. Registramos latência, taxas de erros e disponibilidade para cada solicitação, para todas as dependências e para as principais operações no processo. Registramos métricas de operação bem-sucedida também. Isso nos permite ver problemas iminentes antes que ocorram. Não consideramos apenas a latência média. Nós nos concentramos ainda mais em exceções de latência, como 99,9 e 99,99 percentil. Isso ocorre porque, se uma solicitação de 1.000 ou 10.000 for lenta, isso ainda será uma experiência ruim. Também, embora sua média possa ser aceitável, se uma a cada 100 das suas solicitações causar latência extrema, ele acabará se tornando um problema à medida que seu tráfego aumenta.
O monitoramento na AWS consiste em quatro fases distintas:
-
Geração – Monitorar todos os componentes da carga de trabalho
-
Agregação – Definir e calcular métricas
-
Processamento e alarmes em tempo real – Enviar notificações e automatizar respostas
-
Armazenamento e estudo analítico
Práticas recomendadas
- REL06-BP01 Monitorar todos os componentes da workload (geração)
- REL06-BP02 Definir e calcular as métricas (agregação)
- REL06-BP03 Envie notificações (processamento e emissão de alarmes em tempo real)
- REL06-BP04 Automatizar respostas (processamento e emissão de alarmes em tempo real)
- REL06-BP05 Análises
- REL06-BP06 Realizar revisões regularmente
- REL06-BP07 Monitorar o rastreamento completo das solicitações por meio de seu sistema