Painel do exportador Slurm Painel do exportador de nós Painel do exportador NVIDIA DCGM Painel de métricas do EFA Painel de métricas do FSx for Lustre

Referência de métricas exportadas

As seções a seguir apresentam listas abrangentes de métricas exportadas do SageMaker HyperPod Amazon Managed Service for Prometheus após a configuração bem-sucedida da pilha para observabilidade. AWS CloudFormation SageMaker HyperPod Você pode começar a monitorar essas métricas visualizadas nos painéis do Amazon Managed Grafana.

Painel do exportador Slurm

Fornece informações visualizadas dos clusters do Slurm em. SageMaker HyperPod

Tipos de métricas

Visão geral do cluster: exibindo o número total de nós, trabalhos e seus estados.
Métricas de trabalho: visualização de contagens e estados de trabalhos ao longo do tempo.
Métricas do nó: mostrando os estados dos nós, a alocação e os recursos disponíveis.
Métricas de partição: monitoramento de métricas específicas da partição, como CPU, memória e utilização da GPU.
Eficiência do trabalho: cálculo da eficiência do trabalho com base nos recursos utilizados.

Lista de métricas

Nome da métrica	Descrição
`slurm_job_count`	Número total de trabalhos no cluster Slurm
`slurm_job_state_count`	Contagem de trabalhos em cada estado (por exemplo, em execução, pendentes, concluídos)
`slurm_node_count`	Número total de nós no cluster Slurm
`slurm_node_state_count`	Contagem de nós em cada estado (por exemplo, inativo, alocação, mistura)
`slurm_partition_node_count`	Contagem de nós em cada partição
`slurm_partition_job_count`	Contagem de trabalhos em cada partição
`slurm_partition_alloc_cpus`	Número total de CPUs alocadas em cada partição
`slurm_partition_free_cpus`	Número total de CPUs disponíveis em cada partição
`slurm_partition_alloc_memory`	Memória total alocada em cada partição
`slurm_partition_free_memory`	Memória total disponível em cada partição
`slurm_partition_alloc_gpus`	Total de GPUs alocadas em cada partição
`slurm_partition_free_gpus`	Total de GPUs disponíveis em cada partição

Painel do exportador de nós

Fornece informações visualizadas das métricas do sistema coletadas pelo exportador de nós do Prometheus a partir dos nós do cluster. HyperPod

Tipos de métricas

Visão geral do sistema: exibindo médias de carga da CPU e uso de memória.
Métricas de memória: visualização da utilização da memória, incluindo memória total, memória livre e espaço de troca.
Uso do disco: monitoramento da utilização e disponibilidade do espaço em disco.
Tráfego de rede: mostrando bytes de rede recebidos e transmitidos ao longo do tempo.
Métricas do sistema de arquivos: análise do uso e da disponibilidade do sistema de arquivos.
Métricas de E/S de disco: visualização da atividade de leitura e gravação do disco.

Lista de métricas

Para obter uma lista completa das métricas exportadas, consulte os repositórios Node Exporter e procfs. GitHub A tabela a seguir mostra um subconjunto das métricas que fornece informações sobre a utilização dos recursos do sistema, como carga da CPU, uso da memória, espaço em disco e atividade da rede.

Nome da métrica	Descrição
`node_load1`	Carga média de 1 minuto
`node_load5`	Média de carga de 5 minutos
`node_load15`	Carga média de 15 minutos
`node_memory_MemTotal`	Memória total do sistema
`node_memory_MemFree`	Memória livre do sistema
`node_memory_MemAvailable`	Memória disponível para alocação em processos
`node_memory_Buffers`	Memória usada pelo kernel para armazenamento em buffer
`node_memory_Cached`	Memória usada pelo kernel para armazenar dados do sistema de arquivos em cache
`node_memory_SwapTotal`	Espaço total de troca disponível
`node_memory_SwapFree`	Espaço de swap gratuito
`node_memory_SwapCached`	A memória que uma vez foi trocada, é trocada de volta, mas ainda está sendo trocada
`node_filesystem_avail_bytes`	Espaço em disco disponível em bytes
`node_filesystem_size_bytes`	Espaço total em disco em bytes
`node_filesystem_free_bytes`	Espaço livre em disco em bytes
`node_network_receive_bytes`	Bytes de rede recebidos
`node_network_transmit_bytes`	Bytes de rede transmitidos
`node_disk_read_bytes`	Bytes de disco lidos
`node_disk_written_bytes`	Bytes de disco gravados

Painel do exportador NVIDIA DCGM

Fornece informações visualizadas das métricas da GPU NVIDIA coletadas pelo exportador NVIDIA DCGM.

Tipos de métricas

Visão geral da GPU: exibindo a utilização da GPU, as temperaturas, o uso de energia e o uso da memória.
Métricas de temperatura: visualização das temperaturas da GPU ao longo do tempo.
Uso de energia: monitoramento do consumo de energia da GPU e das tendências de uso de energia.
Utilização da memória: análise do uso da memória da GPU, incluindo memória usada, livre e total.
Velocidade do ventilador: mostra as velocidades e variações do ventilador da GPU.
Erros de ECC: rastreamento de erros de ECC e erros pendentes na memória da GPU.

Lista de métricas

A tabela a seguir mostra uma lista das métricas que fornecem informações sobre a integridade e o desempenho da GPU NVIDIA, incluindo frequências de clock, temperaturas, uso de energia, utilização de memória, velocidades do ventilador e métricas de erro.

Nome da métrica	Descrição
`DCGM_FI_DEV_SM_CLOCK`	Frequência de relógio SM (em MHz)
`DCGM_FI_DEV_MEM_CLOCK`	Frequência do relógio da memória (em MHz)
`DCGM_FI_DEV_MEMORY_TEMP`	Temperatura da memória (em C)
`DCGM_FI_DEV_GPU_TEMP`	Temperatura da GPU (em C)
`DCGM_FI_DEV_POWER_USAGE`	Consumo de energia (em W)
`DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION`	Consumo total de energia desde a inicialização (em mJ)
`DCGM_FI_DEV_PCIE_REPLAY_COUNTER`	Número total de novas tentativas de PCIe
`DCGM_FI_DEV_MEM_COPY_UTIL`	Utilização da memória (em%)
`DCGM_FI_DEV_ENC_UTIL`	Utilização do codificador (em%)
`DCGM_FI_DEV_DEC_UTIL`	Utilização do decodificador (em%)
`DCGM_FI_DEV_XID_ERRORS`	Valor do último erro de XID encontrado
`DCGM_FI_DEV_FB_FREE`	Buffer de quadro livre de memória (em MiB)
`DCGM_FI_DEV_FB_USED`	Memória de buffer de quadros usada (em MiB)
`DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL`	Número total de contadores de largura de banda NVLink para todas as faixas
`DCGM_FI_DEV_VGPU_LICENSE_STATUS`	Status da licença vGPU
`DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS`	Número de linhas remapeadas para erros incorrigíveis
`DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS`	Número de linhas remapeadas para erros corrigíveis
`DCGM_FI_DEV_ROW_REMAP_FAILURE`	Se o remapeamento das linhas falhou

Painel de métricas do EFA

Fornece informações visualizadas das métricas do Amazon Elastic Fabric Adapter (EFA) equipado em instâncias P coletadas pelo exportador de nós EFA.

Tipos de métricas

Métricas de erro do EFA: visualização de erros como erros de alocação, erros de comando e erros do mapa de memória.
Tráfego de rede EFA: monitoramento de bytes, pacotes e solicitações de trabalho recebidos e transmitidos.
Desempenho do EFA RDMA: análise de operações de leitura e gravação de RDMA, incluindo bytes transferidos e taxas de erro.
Vida útil da porta EFA: exibindo a vida útil das portas EFA ao longo do tempo.
Pacotes de manutenção de atividade do EFA: rastreando o número de pacotes de manutenção de atividade recebidos.

Lista de métricas

A tabela a seguir mostra uma lista das métricas que fornece informações sobre vários aspectos da operação do EFA, incluindo erros, comandos concluídos, tráfego de rede e utilização de recursos.

Nome da métrica	Descrição
`node_amazonefa_info`	Dados não numéricos de /sys/class/infiniband/, o valor é sempre 1.
`node_amazonefa_lifespan`	Vida útil do porto
`node_amazonefa_rdma_read_bytes`	Número de bytes lidos com RDMA
`node_amazonefa_rdma_read_resp_bytes`	Número de bytes de resposta de leitura com RDMA
`node_amazonefa_rdma_read_wr_err`	Número de erros de leitura e gravação com RDMA
`node_amazonefa_rdma_read_wrs`	Número de rs de leitura com RDMA
`node_amazonefa_rdma_write_bytes`	Número de bytes gravados com RDMA
`node_amazonefa_rdma_write_recv_bytes`	Número de bytes gravados e recebidos com RDMA
`node_amazonefa_rdma_write_wr_err`	Número de bytes gravados com erro RDMA
`node_amazonefa_rdma_write_wrs`	Número de bytes gravados em RDMA
`node_amazonefa_recv_bytes`	Número de bytes recebidos
`node_amazonefa_recv_wrs`	Número de bytes recebidos wrs
`node_amazonefa_rx_bytes`	Número de bytes recebidos
`node_amazonefa_rx_drops`	Número de pacotes descartados
`node_amazonefa_rx_pkts`	Número de pacotes recebidos
`node_amazonefa_send_bytes`	Número de bytes enviados
`node_amazonefa_send_wrs`	Número de guerras enviadas
`node_amazonefa_tx_bytes`	Número de bytes transmitidos
`node_amazonefa_tx_pkts`	Número de pacotes transmitidos

Painel de métricas do FSx for Lustre

Fornece informações visualizadas das métricas do sistema de arquivos Amazon FSx for Lustre coletadas pela Amazon. CloudWatch

nota

O painel Grafana FSx for Lustre utiliza a CloudWatch Amazon como fonte de dados, o que difere dos outros painéis que você configurou para usar o Amazon Managed Service for Prometheus. Para garantir o monitoramento e a visualização precisos das métricas relacionadas ao seu sistema de arquivos FSx for Lustre, configure o painel do FSx for Lustre para CloudWatch usar a Amazon como fonte de dados, especificando a Região da AWS mesma onde seu sistema de arquivos FSx for Lustre está implantado.

Tipos de métricas

DataReadBytes: o número de bytes para operações de leitura do sistema de arquivos.
DataWriteBytes: o número de bytes para operações de gravação do sistema de arquivos.
DataReadOperations: o número de operações de leitura.
DataWriteOperations: o número de operações de gravação.
MetadataOperations: o número de operações de metadados.
FreeDataStorageCapacity: a quantidade de capacidade de armazenamento disponível.

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Configurar um espaço de trabalho Amazon Managed Grafana

Resiliência do cluster