Como o Monitor de Internet do Amazon CloudWatch funciona - Amazon CloudWatch

Como o Monitor de Internet do Amazon CloudWatch funciona

Esta seção fornece informações sobre como o Monitor de Internet do Amazon CloudWatch funciona. Isso inclui descrições sobre como a AWS coleta os dados que usa para ajudar a detectar problemas de conectividade em toda a Internet e como as pontuações de performance e disponibilidade são calculadas.

Índice

Como o Monitor de Internet se concentra somente na abrangência de tráfego da sua aplicação

O Monitor de Internet concentra o monitoramento apenas no subconjunto da Internet que é acessado pelos usuários dos recursos da AWS, em vez de monitorar de modo amplo seu site em todas as regiões do mundo, como fazem outras ferramentas. Também é uma solução econômica, acessível para grandes e pequenas empresas.

O Monitor de Internet usa as mesmas sondas e algoritmos poderosos de detecção de problemas que a AWS usa internamente e alerta você sobre problemas de conectividade que afetam a aplicação, criando eventos de integridade no Monitor de Internet. Depois, o Monitor de Internet fornece acesso ao mapa de performance e de disponibilidade resultante, sobrepondo o perfil de tráfego que ele cria a partir de seus visualizadores ativos, com base nos recursos da aplicação.

Usando essas informações, o Monitor de Internet mostra apenas os eventos relevantes (ou seja, os eventos de lugares onde você tem visualizadores ativos) e apenas o impacto que esses eventos têm no seu volume total de visualizadores. Portanto, o impacto de um evento, em termos percentuais, é baseado no seu tráfego total no mundo todo.

O Monitor de Internet armazena medições da Internet para pares de locais de seus clientes e ASNs, ou redes urbanas. O Monitor de Internet também cria métricas agregadas do CloudWatch para o tráfego para sua aplicação e para cada Região da AWS e local da borda.

Além disso, o Monitor de Internet publica medições da Internet no CloudWatch Logs a cada 5 minutos para as 500 principais redes urbanas que enviam tráfego para cada monitor, viabilizando o uso de ferramentas do CloudWatch e de outros métodos com seus dados. Opcionalmente, é possível optar por publicar medições da Internet para todas as cidades-redes monitoradas (até o limite de serviço de 500.000 cidades-redes) em um bucket do Amazon S3. Para ter mais informações, consulte Publicação de medições da Internet para o Amazon S3 no Monitor de Internet do Amazon CloudWatch.

Os benefícios do Monitor de Internet incluem os seguintes:

  • Usar o Monitor de Internet não impõe carga ou custo adicional à aplicação hospedada na AWS.

  • Você não precisa incluir código de medição de performance nos recursos do lado do cliente nem na sua aplicação.

  • Você pode ter visibilidade da performance e da disponibilidade em toda a Internet à qual a aplicação está conectada, incluindo as informações de "última milha".

Observe que, como o Monitor de Internet cria medições com base nos seus recursos da AWS, o Monitor de Internet só cria eventos específicos do tráfego da aplicação. Os problemas da Internet global em geral não são relatados. Além disso, quando o local do serviço é uma Região da AWS, as medições e os eventos emitidos pretendem representar a conectividade em um nível regional e não representam com precisão a conectividade entre um local do usuário final e uma zona de disponibilidade.

Como a AWS mede os problemas de conectividade e calcula as medições

O Monitor de Internet do Amazon CloudWatch usa dados de conectividade da Internet entre diferentes Regiões da AWS e pontos de presença (POPs) do Amazon CloudFront para diversas localidades de clientes por meio de números de sistema autônomo (ASNs), que geralmente são provedores de serviços de Internet (ISPs). Esses são os dados de conectividade usados ​​internamente pelos operadores da AWS, diariamente, para detectar proativamente problemas de conectividade na Internet global.

Para cada Região da AWS, sabemos quais seções da Internet se comunicam com a região e fazemos o seguinte:

  • Monitoramos ativamente essas seções da Internet com uma janela móvel de 30 dias.

  • Usamos sondas de rede e de protocolos de nível superior, incluindo sondagem de entrada e saída.

A AWS tem sondas ativas e passivas que medem a latência (performance) no 90º percentil e a acessibilidade (disponibilidade) de todas as Região da AWS e do serviço CloudFront para toda a Internet. Os padrões anormais na conectividade entre um serviço e a localidade de um cliente são monitorados e, em seguida, relatados como alertas ao cliente.

Para detalhes, consulte estas seções:

Cálculo de disponibilidade e de RTT

O tempo de ida e volta (RTT) é o tempo necessário para que uma solicitação do usuário retorne uma resposta. Quando o tempo de ida e volta é agregado entre os locais de usuários finais, o valor é ponderado pela quantidade de tráfego que é direcionada por cada local de usuário final.

Por exemplo, com dois locais de usuário final, um servindo 90% do tráfego com um RTT de 5 ms e o outro servindo 10% do tráfego com um RTT de 10 ms, o resultado é um RTT agregado de 5,5 ms (resultado de 5 ms * 0,9 + 10 ms * 0,1).

Observe que há diferenças nos recursos sobre como medir a latência da última milha. Para medições de latência do Monitor de Internet, as VPCs, os Network Load Balancers e os diretórios do WorkSpaces não incluem a latência de última milha.

Cálculo de pontuações de desempenho e de disponibilidade

A AWS tem dados históricos substanciais sobre a performance e a disponibilidade de Internet entre os serviços da AWS e diferentes cidades-redes (locais ou ASNs). Aplicando a análise estatística aos dados, o Monitor de Internet pode detectar quando a performance e a disponibilidade da aplicação diminuíram, em comparação com a linha de base estimada que ele calcula. Para facilitar a visualização dessas quedas, essas informações são relatadas sob a forma de pontuações de integridade: uma pontuação de performance e uma pontuação de disponibilidade.

As pontuações de integridade são calculadas em diferentes granularidades. Com a maior granularidade, computamos a pontuação de integridade de uma região geográfica, como uma cidade ou área metropolitana, e um ASN (uma cidade-rede). Também somamos as pontuações de integridade individuais às pontuações gerais de integridade para uma aplicação em um monitor. Se você visualizar as pontuações de performance ou de disponibilidade sem filtrar por área geográfica ou provedor de serviços específico, o Monitor de Internet fornecerá as pontuações gerais de integridade.

As pontuações gerais de integridade cobrem toda a sua aplicação durante o período de tempo especificado. Quando a pontuação de performance ou disponibilidade dos pares de cidades-redes da sua aplicação atinge ou cai abaixo do limite de eventos de integridade correspondente para performance ou disponibilidade, o Monitor de Internet aciona um evento de integridade. Por padrão, o limite é de 95% tanto para performance quanto para disponibilidade geral. O Monitor de Internet também cria eventos de integridade com base nos limites locais (se a opção estiver habilitada, como está por padrão) com base nos valores que você configurar. Para saber mais sobre a configuração de limites de eventos de integridade, consulte Alterar limites de eventos de integridade.

Ao explorar as informações nos arquivos de monitor e de log para investigar problemas e saber mais, será possível filtrar por cidades (locais), redes (ASNs ou provedores de Internet) específicas ou ambas. Portanto, é possível usar filtros para ver as pontuações de integridade de diferentes cidades, ASNs ou pares de cidades-redes, dependendo dos filtros escolhidos.

  • Uma pontuação de disponibilidade representa a porcentagem estimada de tráfego que não está apresentando queda de disponibilidade. O Monitor de Internet estima a porcentagem de tráfego que está apresentando queda em relação ao tráfego total observado e às medições das métricas de disponibilidade. Por exemplo, uma pontuação de disponibilidade de 99% para um par de usuário final e local de serviço equivale a 1% do tráfego que apresenta queda de disponibilidade para esse par.

  • Uma pontuação de performance representa a porcentagem do tráfego que não está apresentando queda de performance. Por exemplo, uma pontuação de performance de 99% para um par de usuário final e local de serviço equivale a 1% do tráfego que está apresentando queda de performance para esse par.

Cálculo de TTFB e de RTT (latência)

O tempo até o primeiro byte (TTFB) se refere ao tempo entre o momento em que um cliente faz uma solicitação e o momento em que ele recebe o primeiro byte de informação do servidor. Os cálculos do TTFB da AWS medem o tempo decorrido do Amazon EC2 ou do Amazon CloudFront até o nó de medição do Monitor de Internet (incluindo a última milha do nó). Ou seja, o Monitor de Internet mede o tempo do usuário até a região do Amazon EC2 para TTFB para EC2 e do usuário até o CloudFront para TTFB para CloudFront.

Para o tempo de ida e volta (RTT), o Monitor de Internet inclui o tempo da rede-cidade (ou seja, a localização do cliente e o ASN, geralmente um provedor de serviços de Internet), conforme mapeado pelo endereço IP público, até a Região da AWS. Isso significa que o Monitor de Internet não tem visibilidade de última milha para usuários que acessem a Internet por trás de um gateway ou VPN.

Observe que há diferenças nos recursos sobre como medir a latência da última milha. Para medições de latência do Monitor de Internet, as VPCs, os Network Load Balancers e os diretórios do WorkSpaces não incluem a latência de última milha.

O Monitor de Internet inclui informações médias de TTFB na seção Sugestões de otimização de tráfego da guia Insights de tráfego no painel do CloudWatch, para ajudar você a avaliar opções para diferentes configurações da sua aplicação que possam melhorar a performance.

Medições e agregação regional e de zona de disponibilidade

Embora o Monitor de Internet agregue medições e compartilhe o impacto em um nível regional, ele calcula o impacto em um nível de zona de disponibilidade (AZ). Isso significa que, se, para um evento, somente uma AZ for impactada e a maior parte do tráfego é transmitido por meio dessa AZ, você terá impacto no tráfego. No entanto, para o mesmo evento, se o tráfego da aplicação não é transmitido por uma AZ afetada, você não terá impacto.

Observe que isso se aplica somente a recursos que não são diretórios do WorkSpaces. Os diretórios do WorkSpaces são medidos somente em um nível regional.

Precisão de geolocalização no Monitor de Internet

Para obter informações de localização, o Monitor de Internet usa dados de geolocalização IP fornecidos pela MaxMind. A precisão das informações de localização nas medições do Monitor de Internet depende da precisão dos dados da MaxMind.

Esteja ciente de que as medições de nível Metro podem não ser precisas para localidades externas aos Estados Unidos.

Quando o Monitor de Internet cria e resolve eventos de integridade

O Monitor de Internet cria e fecha eventos de integridade para o tráfego da aplicação que você monitora com base nos limites atuais definidos. O Monitor de Internet tem uma configuração de limite padrão e também é possível definir sua própria configuração para limites. O Monitor de Internet determina o impacto geral que os problemas de conectividade estão causando na sua aplicação e o impacto nas áreas locais em que sua aplicação tem clientes e cria eventos de integridade quando os limites são ultrapassados.

O Monitor de Internet calcula o impacto dos problemas de conectividade no local do cliente com base nos dados históricos de performance e de disponibilidade de Internet para o tráfego de rede que está disponível para o serviço por meio da AWS. Ele aplica as informações relevantes para a sua aplicação, com base nas localizações geográficas dos ASNs e nos serviços em que os clientes usam sua aplicação: os pares cidade-rede afetados. Os locais são determinados pelos recursos adicionados ao seu monitor. Em seguida, o Monitor de Internet usa análise estatística para detectar quando a performance e a disponibilidade caem, afetando a experiência do cliente da sua aplicação.

As quedas de performance e de disponibilidade são representadas como o percentual de tráfego que não está apresentando queda. O impacto é o oposto: é uma representação da gravidade de um problema para os usuários finais de um cliente. Portanto, se houver uma queda de disponibilidade global de 93%, por exemplo, o impacto correspondente seria de 7%.

Quando a pontuação de performance ou disponibilidade dos pares de cidades-redes atinge ou cai abaixo do limite de eventos de integridade correspondente para performance ou disponibilidade globalmente, isso faz com que o Monitor de Internet acione um evento de integridade. Por padrão, o limite é de 95% tanto para performance quanto para disponibilidade. Os valores para atingir ou cair abaixo do limite são cumulativos, o que pode significar que vários eventos menores se combinem para atingir o percentual limite, ou que um único evento atinja ou caia abaixo do nível limite.

Desde que as pontuações de performance ou disponibilidade que acionaram o evento estejam iguais ou abaixo do percentual limite de eventos de integridade correspondente para o impacto geral, o evento de integridade permanecerá ativo. Quando a pontuação ou as pontuações combinadas que desencadearam o evento ultrapassam o limite, o Monitor de Internet resolve o evento de integridade.

O Monitor de Internet também cria eventos de integridade com base nos limites locais e no percentual do tráfego geral sobre o qual um problema afete. É possível configurar opções para limites locais ou desativar completamente os limites locais.

Para saber mais sobre a configuração de limites de eventos de integridade, consulte Alterar limites de eventos de integridade.

Temporização do relatório de eventos de integridade

O Monitor de Internet usa um agregador para reunir todos os sinais de problemas de Internet para criar eventos de integridade nos monitores em questão de minutos.

Quando possível, o Monitor de Internet analisa a origem de um evento de integridade para determinar se ele foi causado pela AWS ou por um ANS. A análise de eventos de integridade continua após a resolução de um evento. O Monitor de Internet pode atualizar eventos com novas informações por até uma hora.

Como o Monitor de Internet funciona com tráfego IPv4 e IPv6

O Monitor de Internet mede a integridade de uma rede somente por IPv4 e mostra eventos de integridade e métricas de disponibilidade e performance, se você distribuir tráfego para essa rede em qualquer família de IP (IPv4 ou IPv6). Se você transmitir o tráfego de um recurso de pilha dupla, como uma distribuição de pilha dupla do CloudFront, o Monitor de Internet gerará um evento de integridade e mostrará uma queda na pontuação de performance ou na pontuação de disponibilidade somente se o tráfego IPv4 apresentar problemas semelhantes aos do tráfego IPv6 para o recurso.

Observe que as métricas do Monitor de Internet para entrada e saída gerais de bytes refletem com precisão todo o tráfego da Internet (IPv4 e IPv6).

Como o Monitor de Internet seleciona o subconjunto de redes de cidades a ser incluído

Quando você define um limite máximo para o número de redes de cidades monitoradas pelo monitor ou escolhe uma porcentagem de tráfego para monitorar, o Monitor de Internet seleciona as redes de cidades a serem incluídas (monitoradas) com base no maior volume de tráfego recente.

Por exemplo, se você definir um limite máximo de redes de cidades de cem, o Monitor de Internet monitorará (no máximo) cem redes de cidades com base no tráfego da aplicação durante um período recente de uma hora. Especificamente, o Monitor de Internet monitora as cem principais redes de cidades que tiveram um tráfego elevado na janela de uma hora mais recente antes da última janela de uma hora.

Para ilustrar isso, suponhamos que o horário atual seja 14h30. Neste cenário, o tráfego que você visualiza em seu monitor foi capturado entre 13h e 14h, e a medição do volume de tráfego que o Monitor de Internet usa para determinar as cem principais redes de cidades foi capturada entre 12h e 13h.

Como o mapa de condições globais da Internet foi criado (perguntas frequentes)

O mapa de condições da Internet do Monitor de Internet do Amazon CloudWatch está disponível no console do Monitor de Internet para todos os clientes autenticados da AWS. Esta seção inclui detalhes sobre como o mapa de condições da Internet foi criado e como é possível usá-lo.

O que é o mapa de condições da Internet do Monitor de Internet?

O mapa de condições da Internet disponibiliza uma representação visual dos problemas relacionados com a Internet em todo o mundo. Há destaque para as localidades de clientes com impacto, ou seja, as cidades e o ASN (que normalmente são provedores de serviços de Internet). O mapa mostra uma combinação de problemas de disponibilidade e de performance que afetaram a experiência dos clientes na Internet recentemente para as principais localidades de clientes e serviços da AWS em todo o mundo.

Qual é a origem dos dados do mapa?

Os dados são baseados em uma combinação de investigações ativas e passivas da Internet. Para saber mais sobre como o Monitor de Internet realiza a medição de dados, você pode realizar a leitura da seção Como a AWS mede os problemas de conectividade.

Com que frequência ocorre a atualização do mapa?

O mapa de condições da Internet é atualizado a cada 15 minutos.

Quais redes são monitoradas em busca de interrupções?

A AWS monitora redes que representam prefixos IP importantes usados ​​pelos clientes para efetuar conexões da Internet com a AWS em todo o mundo. Nós verificamos as interrupções para localidades de clientes que são os principais responsáveis pelo volume de tráfego enviado e recebido pela rede da AWS.

O que determina se um evento da Internet será incluso no mapa?

Apresentamos abaixo alguns critérios de alto nível que usamos para determinar se um evento da Internet será incluso no mapa de condições da Internet:

  • A AWS detecta que existe um evento de disponibilidade ou de performance.

  • Se o evento for de curta duração, por exemplo, durar menos de cinco minutos, nós o ignoramos.

  • Se o evento ocorrer em uma localidade de cliente que é classificada como uma das principais responsáveis pelo tráfego, será considerado uma interrupção.

Quais limites são usados ​​para o mapa de condições da Internet?

Os limites para a determinação de interrupções não são estáticos para o mapa de condições da Internet. O Monitor de Internet determina o que constitui um evento com base na detecção de um desvio dos valores esperados. Você pode obter mais informações sobre o funcionamento desse processo ao analisar como o Monitor de Internet determina quando criar eventos de integridade para monitoramentos criados com o serviço. Ao criar um monitoramento, o Monitor de Internet gera medidas de integridade do tráfego da Internet que são específicas para o tráfego da sua própria aplicação. Além disso, o Monitor de Internet alerta você sobre os eventos de integridade relacionados a problemas que afetam o tráfego de Internet da sua aplicação.

Quais são as possibilidades de uso desses dados?

O mapa de condições da Internet fornece um breve resumo dos principais eventos da Internet que aconteceram em todo o mundo nas últimas 24 horas. Ele possibilita que você aproveite a experiência de monitoramento da Internet, sem a necessidade de integração do seu próprio tráfego de Internet ao Monitor de Internet. Para utilizar todo o potencial das funcionalidades de monitoramento da Internet da AWS e personalizá-las para suas aplicações e serviços hospedados na AWS, é possível criar um monitoramento no Monitor de Internet.

Ao criar um monitoramento, você habilita que o Monitor de Internet identifique os caminhos de Internet específicos que afetam os clientes das suas aplicações e obtém acesso a recursos e funcionalidades que podem auxiliar na melhora da experiência do cliente. Além disso, você receberá notificações de forma proativa sobre os novos problemas relacionados à Internet que afetam especificamente o tráfego e os clientes da sua aplicação.

Como é possível obter mais detalhes sobre os eventos?

Clique em uma interrupção no mapa para visualizar os detalhes, os quais incluem o momento em que um evento começou e terminou, a cidade e o ASN afetados, e qual tipo de problema ocorreu (ou seja, se foi um problema de performance ou de disponibilidade).

Para obter informações mais detalhadas sobre os eventos e obter medições personalizadas para o tráfego da sua aplicação, crie um monitoramento no Monitor de Internet.