Usar métricas do CloudWatch para monitorar o Elastic Graphics - Amazon Elastic Compute Cloud

Usar métricas do CloudWatch para monitorar o Elastic Graphics

Importante

O Amazon Elastic Graphics chegou ao fim da vida útil em 8 de janeiro de 2024. Para workloads que precisam de aceleração gráfica, recomendamos que você use instâncias G4ad, G4dn ou G5 do Amazon EC2.

É possível monitorar o acelerador do Elastic Graphics usando o Amazon CloudWatch, que coleta métricas sobre a performance do acelerador. Essas estatísticas são registradas por um período de duas semanas, para que você possa acessar informações históricas e obter uma perspectiva melhor sobre a performance de seu serviço.

Por padrão, os aceleradores do Elastic Graphics enviam dados de métricas ao CloudWatch em períodos de 5 minutos.

Para obter mais informações sobre o Amazon CloudWatch, consulte o Guia do usuário do Amazon CloudWatch.

Métricas do Elastic Graphics

O namespace AWS/ElasticGPUs inclui as seguintes métricas para o Elastic Graphics.

Métrica Descrição

GPUConnectivityCheckFailed

Informa se a conectividade com o acelerador do Elastic Graphics está ativa ou falhou. Um valor de zero (0) indica que a conexão está ativa. Um valor de um (1) uma falha de conectividade.

Unidades: contagem

GPUHealthCheckFailed

Informa se o acelerador do Elastic Graphics foi aprovado na verificação de integridade de status no último minuto. Um valor de zero (0) indica que a verificação de status obteve aprovação. Um valor de um (1) uma falha na verificação de status.

Unidades: contagem

GPUMemoryUtilization

A memória da GPU usada.

Unidades: MiB

Dimensões do Elastic Graphics

Você pode filtrar os dados de métricas de seus aceleradores do Elastic Graphics usando as seguintes dimensões.

Dimensão Descrição
EGPUId Filtra os dados pelo acelerador do Elastic Graphics.
InstanceId Filtra os dados pela instância à qual o acelerador do Elastic Graphics está anexado.

Visualizar métricas do CloudWatch para o Elastic Graphics

As métricas são agrupadas primeiro pelo namespace do serviço e, em seguida, pelas várias dimensões com suporte. Você pode usar os procedimentos a seguir para visualizar as métricas dos aceleradores do Elastic Graphics.

Para visualizar as métricas do Elastic Graphics no console do CloudWatch
  1. Abra o console do CloudWatch em https://console.aws.amazon.com/cloudwatch/.

  2. Se necessário, altere a região. Na barra de navegação, selecione a região em que o acelerador do Elastic Graphics reside. Para obter mais informações, consulte Regiões e endpoints.

  3. No painel de navegação, selecione Metrics (Métricas).

  4. Em All metrics (Todas as métricas), selecione Elastic Graphics, Elastic Graphics Metrics (Métricas do Elastic Graphics).

Para visualizar métricas do Elastic Graphics (AWS CLI)

Use o comando list-metrics a seguir:

aws cloudwatch list-metrics --namespace "AWS/ElasticGPUs"

Criar alarmes do CloudWatch para monitorar o Elastic Graphics

Você pode criar um alarme do CloudWatch que envia uma mensagem de Amazon SNS quando o alarme mudar de estado. Um alarme observa uma única métrica por um período especificado por você e envia uma notificação para um tópico do Amazon SNS com base no valor da métrica em relação a determinado limite ao longo de vários períodos.

Por exemplo, é possível criar um alarme que monitore a integridade de um acelerador do Elastic Graphics e envie uma notificação quando ocorrer uma falha na verificação de integridade do acelerador gráfico por três períodos consecutivos de cinco minutos.

Para criar um alarme para o status de integridade de um acelerador do Elastic Graphics
  1. Abra o console do CloudWatch em https://console.aws.amazon.com/cloudwatch/.

  2. No painel de navegação, escolha Alarms, Create Alarm.

  3. Escolha Select metric (Selecionar métrica), Elastic Graphics, Elastic Graphics Metrics (Métricas do Elastic Graphics).

  4. Selecione a métrica GPUHealthCheckFailed e escolha Select metric (Selecionar métrica).

  5. Configure o alarme desta forma:

    1. Em Alarm details (Detalhes do alarme), digite um nome e uma descrição para o alarme. Em Whenever (Sempre), escolha >= e digite 1.

    2. Em Actions (Ações), selecione uma lista de notificações existente ou escolha New list (Nova lista).

    3. Escolha Create Alarm.