Exemplo: usar o Application Signals para resolver um problema de integridade operacional - Amazon CloudWatch

Exemplo: usar o Application Signals para resolver um problema de integridade operacional

O cenário a seguir fornece um exemplo de como o Application Signals pode ser usado para monitorar serviços e identificar problemas de qualidade de serviços. Faça uma pesquisa profunda para identificar as possíveis causas raiz e tomar medidas para resolver o problema. Este exemplo se concentra em uma aplicação de uma clínica para animais de estimação, composta de vários microsserviços que chamam Serviços da AWS como o DynamoDB.

Jane faz parte de uma equipe de DevOps que supervisiona a integridade operacional de uma aplicação de uma clínica para animais de estimação. A equipe de Jane está comprometida em garantir que a aplicação seja altamente disponível e responsiva. Os membros da equipe usam objetivos de nível de serviço (SLOs) para medir a performance da aplicação em relação a esses compromissos e negócios. Ela recebe um alerta sobre vários indicadores de nível de serviço (SLIs) não íntegros. Ela abre o console do CloudWatch e navega até a página Serviços e observa vários serviços em um estado não íntegro.

Serviços com SLIs não íntegros

Na parte superior da página, Jane vê que visits-service é o melhor serviço por taxa de falhas. Ela seleciona o link no gráfico, que abre a página Detalhes do serviço para o serviço. Ela vê que há uma operação não íntegra na tabela Operações de serviço. Ela seleciona essa operação e vê no gráfico Volume e Disponibilidade que há picos periódicos no volume de chamadas que parecem estar correlacionados a quedas na disponibilidade.

Volume e disponibilidade da operação do serviço

Para observar mais de perto as quedas na disponibilidade do serviço, Jane seleciona um dos pontos de dados de disponibilidade no gráfico. Uma gaveta é aberta mostrando rastreamentos do X-Ray que estão correlacionados ao ponto de dados selecionado. Ela vê que há vários rastreamentos com falhas.

Disponibilidade do serviço e rastreamentos correlacionados

Jane seleciona um dos rastreamentos correlacionados com um status de falha, o que abre a página de detalhes de rastreamentos do X-Ray para o rastreamento selecionado. Jane desce até a seção Linha do tempo dos segmentos e segue o caminho de chamadas até ver que as chamadas para uma tabela do DynamoDB estão retornando erros. Ela seleciona o segmento do DynamoDB e navega até a guia Exceções na gaveta do lado direito.

Segmento de rastreamento com erros do DynamoDB

Jane percebe que um recurso do DynamoDB está configurado incorretamente, resultando em erros durante picos nas solicitações dos clientes. O nível de throughput provisionado da tabela do DynamoDB é excedido periodicamente, resultando em problemas de disponibilidade do serviço e SLIs não íntegros. Com base nessas informações, a equipe consegue configurar um nível mais alto de throughput provisionado e garantir a alta disponibilidade da aplicação.