Referência de métricas exportadas - Amazon SageMaker

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Referência de métricas exportadas

As seções a seguir apresentam listas abrangentes de métricas exportadas do SageMaker HyperPod Amazon Managed Service for Prometheus após a configuração bem-sucedida da pilha para observabilidade. AWS CloudFormation SageMaker HyperPod Você pode começar a monitorar essas métricas visualizadas nos painéis do Amazon Managed Grafana.

Painel do exportador Slurm

Fornece informações visualizadas dos clusters do Slurm em. SageMaker HyperPod

Tipos de métricas

  • Visão geral do cluster: exibindo o número total de nós, trabalhos e seus estados.

  • Métricas de trabalho: visualização de contagens e estados de trabalhos ao longo do tempo.

  • Métricas do nó: mostrando os estados dos nós, a alocação e os recursos disponíveis.

  • Métricas de partição: monitoramento de métricas específicas da partição, como CPU, memória e utilização da GPU.

  • Eficiência do trabalho: cálculo da eficiência do trabalho com base nos recursos utilizados.

Lista de métricas

Nome da métrica Descrição
slurm_job_count Número total de trabalhos no cluster Slurm
slurm_job_state_count Contagem de trabalhos em cada estado (por exemplo, em execução, pendentes, concluídos)
slurm_node_count Número total de nós no cluster Slurm
slurm_node_state_count Contagem de nós em cada estado (por exemplo, inativo, alocação, mistura)
slurm_partition_node_count Contagem de nós em cada partição
slurm_partition_job_count Contagem de trabalhos em cada partição
slurm_partition_alloc_cpus Número total de CPUs alocadas em cada partição
slurm_partition_free_cpus Número total de CPUs disponíveis em cada partição
slurm_partition_alloc_memory Memória total alocada em cada partição
slurm_partition_free_memory Memória total disponível em cada partição
slurm_partition_alloc_gpus Total de GPUs alocadas em cada partição
slurm_partition_free_gpus Total de GPUs disponíveis em cada partição

Painel do exportador de nós

Fornece informações visualizadas das métricas do sistema coletadas pelo exportador de nós do Prometheus a partir dos nós do cluster. HyperPod

Tipos de métricas

  • Visão geral do sistema: exibindo médias de carga da CPU e uso de memória.

  • Métricas de memória: visualização da utilização da memória, incluindo memória total, memória livre e espaço de troca.

  • Uso do disco: monitoramento da utilização e disponibilidade do espaço em disco.

  • Tráfego de rede: mostrando bytes de rede recebidos e transmitidos ao longo do tempo.

  • Métricas do sistema de arquivos: análise do uso e da disponibilidade do sistema de arquivos.

  • Métricas de E/S de disco: visualização da atividade de leitura e gravação do disco.

Lista de métricas

Para obter uma lista completa das métricas exportadas, consulte os repositórios Node Exporter e procfs. GitHub A tabela a seguir mostra um subconjunto das métricas que fornece informações sobre a utilização dos recursos do sistema, como carga da CPU, uso da memória, espaço em disco e atividade da rede.

Nome da métrica Descrição
node_load1 Carga média de 1 minuto
node_load5 Média de carga de 5 minutos
node_load15 Carga média de 15 minutos
node_memory_MemTotal Memória total do sistema
node_memory_MemFree Memória livre do sistema
node_memory_MemAvailable Memória disponível para alocação em processos
node_memory_Buffers Memória usada pelo kernel para armazenamento em buffer
node_memory_Cached Memória usada pelo kernel para armazenar dados do sistema de arquivos em cache
node_memory_SwapTotal Espaço total de troca disponível
node_memory_SwapFree Espaço de swap gratuito
node_memory_SwapCached A memória que uma vez foi trocada, é trocada de volta, mas ainda está sendo trocada
node_filesystem_avail_bytes Espaço em disco disponível em bytes
node_filesystem_size_bytes Espaço total em disco em bytes
node_filesystem_free_bytes Espaço livre em disco em bytes
node_network_receive_bytes Bytes de rede recebidos
node_network_transmit_bytes Bytes de rede transmitidos
node_disk_read_bytes Bytes de disco lidos
node_disk_written_bytes Bytes de disco gravados

Painel do exportador NVIDIA DCGM

Fornece informações visualizadas das métricas da GPU NVIDIA coletadas pelo exportador NVIDIA DCGM.

Tipos de métricas

  • Visão geral da GPU: exibindo a utilização da GPU, as temperaturas, o uso de energia e o uso da memória.

  • Métricas de temperatura: visualização das temperaturas da GPU ao longo do tempo.

  • Uso de energia: monitoramento do consumo de energia da GPU e das tendências de uso de energia.

  • Utilização da memória: análise do uso da memória da GPU, incluindo memória usada, livre e total.

  • Velocidade do ventilador: mostra as velocidades e variações do ventilador da GPU.

  • Erros de ECC: rastreamento de erros de ECC e erros pendentes na memória da GPU.

Lista de métricas

A tabela a seguir mostra uma lista das métricas que fornecem informações sobre a integridade e o desempenho da GPU NVIDIA, incluindo frequências de clock, temperaturas, uso de energia, utilização de memória, velocidades do ventilador e métricas de erro.

Nome da métrica Descrição
DCGM_FI_DEV_SM_CLOCK Frequência de relógio SM (em MHz)
DCGM_FI_DEV_MEM_CLOCK Frequência do relógio da memória (em MHz)
DCGM_FI_DEV_MEMORY_TEMP Temperatura da memória (em C)
DCGM_FI_DEV_GPU_TEMP Temperatura da GPU (em C)
DCGM_FI_DEV_POWER_USAGE Consumo de energia (em W)
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION Consumo total de energia desde a inicialização (em mJ)
DCGM_FI_DEV_PCIE_REPLAY_COUNTER Número total de novas tentativas de PCIe
DCGM_FI_DEV_MEM_COPY_UTIL Utilização da memória (em%)
DCGM_FI_DEV_ENC_UTIL Utilização do codificador (em%)
DCGM_FI_DEV_DEC_UTIL Utilização do decodificador (em%)
DCGM_FI_DEV_XID_ERRORS Valor do último erro de XID encontrado
DCGM_FI_DEV_FB_FREE Buffer de quadro livre de memória (em MiB)
DCGM_FI_DEV_FB_USED Memória de buffer de quadros usada (em MiB)
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL Número total de contadores de largura de banda NVLink para todas as faixas
DCGM_FI_DEV_VGPU_LICENSE_STATUS Status da licença vGPU
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS Número de linhas remapeadas para erros incorrigíveis
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS Número de linhas remapeadas para erros corrigíveis
DCGM_FI_DEV_ROW_REMAP_FAILURE Se o remapeamento das linhas falhou

Painel de métricas do EFA

Fornece informações visualizadas das métricas do Amazon Elastic Fabric Adapter (EFA) equipado em instâncias P coletadas pelo exportador de nós EFA.

Tipos de métricas

  • Métricas de erro do EFA: visualização de erros como erros de alocação, erros de comando e erros do mapa de memória.

  • Tráfego de rede EFA: monitoramento de bytes, pacotes e solicitações de trabalho recebidos e transmitidos.

  • Desempenho do EFA RDMA: análise de operações de leitura e gravação de RDMA, incluindo bytes transferidos e taxas de erro.

  • Vida útil da porta EFA: exibindo a vida útil das portas EFA ao longo do tempo.

  • Pacotes de manutenção de atividade do EFA: rastreando o número de pacotes de manutenção de atividade recebidos.

Lista de métricas

A tabela a seguir mostra uma lista das métricas que fornece informações sobre vários aspectos da operação do EFA, incluindo erros, comandos concluídos, tráfego de rede e utilização de recursos.

Nome da métrica Descrição
node_amazonefa_info Dados não numéricos de /sys/class/infiniband/, o valor é sempre 1.
node_amazonefa_lifespan Vida útil do porto
node_amazonefa_rdma_read_bytes Número de bytes lidos com RDMA
node_amazonefa_rdma_read_resp_bytes Número de bytes de resposta de leitura com RDMA
node_amazonefa_rdma_read_wr_err Número de erros de leitura e gravação com RDMA
node_amazonefa_rdma_read_wrs Número de rs de leitura com RDMA
node_amazonefa_rdma_write_bytes Número de bytes gravados com RDMA
node_amazonefa_rdma_write_recv_bytes Número de bytes gravados e recebidos com RDMA
node_amazonefa_rdma_write_wr_err Número de bytes gravados com erro RDMA
node_amazonefa_rdma_write_wrs Número de bytes gravados em RDMA
node_amazonefa_recv_bytes Número de bytes recebidos
node_amazonefa_recv_wrs Número de bytes recebidos wrs
node_amazonefa_rx_bytes Número de bytes recebidos
node_amazonefa_rx_drops Número de pacotes descartados
node_amazonefa_rx_pkts Número de pacotes recebidos
node_amazonefa_send_bytes Número de bytes enviados
node_amazonefa_send_wrs Número de guerras enviadas
node_amazonefa_tx_bytes Número de bytes transmitidos
node_amazonefa_tx_pkts Número de pacotes transmitidos

Painel de métricas do FSx for Lustre

Fornece informações visualizadas das métricas do sistema de arquivos Amazon FSx for Lustre coletadas pela Amazon. CloudWatch

nota

O painel Grafana FSx for Lustre utiliza a CloudWatch Amazon como fonte de dados, o que difere dos outros painéis que você configurou para usar o Amazon Managed Service for Prometheus. Para garantir o monitoramento e a visualização precisos das métricas relacionadas ao seu sistema de arquivos FSx for Lustre, configure o painel do FSx for Lustre para CloudWatch usar a Amazon como fonte de dados, especificando a Região da AWS mesma onde seu sistema de arquivos FSx for Lustre está implantado.

Tipos de métricas

  • DataReadBytes: o número de bytes para operações de leitura do sistema de arquivos.

  • DataWriteBytes: o número de bytes para operações de gravação do sistema de arquivos.

  • DataReadOperations: o número de operações de leitura.

  • DataWriteOperations: o número de operações de gravação.

  • MetadataOperations: o número de operações de metadados.

  • FreeDataStorageCapacity: a quantidade de capacidade de armazenamento disponível.