As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
SageMaker HyperPod A Amazon fornece um conjunto de CloudWatch métricas da Amazon que você pode usar para monitorar a integridade e o desempenho dos seus HyperPod clusters. Essas métricas são coletadas do gerenciador de carga de trabalho do Slurm em execução em seus HyperPod clusters e estão disponíveis no namespace. /aws/sagemaker/Clusters
CloudWatch
Métricas em nível de cluster
As seguintes métricas em nível de cluster estão disponíveis para. HyperPod Essas métricas usam a ClusterId
dimensão para identificar o HyperPod cluster específico.
CloudWatch nome da métrica | Observações | Nome da métrica do Amazon EKS Container Insights |
---|---|---|
cluster_node_count | Número total de nós no cluster | cluster_node_count |
cluster_idle_node_count | Número de nós ociosos no cluster | N/D |
cluster_failed_node_count | Número de nós com falha no cluster | cluster_failed_node_count |
contagem de cpu_cluster | Total de núcleos de CPU no cluster | node_cpu_limit |
cluster_idle_cpu_count | Número de núcleos de CPU ociosos no cluster | N/D |
contagem de gpu_cluster_ | Total GPUs no cluster | node_gpu_limit |
cluster_idle_gpu_count | Número de inativos GPUs no cluster | N/D |
contagem de tarefas em execução em cluster | Número de trabalhos do Slurm em execução no cluster | N/D |
contagem de tarefas pendentes do cluster | Número de trabalhos pendentes do Slurm no cluster | N/D |
contagem de tarefas preemptadas em cluster | Número de trabalhos preemptivos do Slurm no cluster | N/D |
cluster_avg_task_wait_time | Tempo médio de espera para trabalhos do Slurm no cluster | N/D |
cluster_max_task_wait_time | Tempo máximo de espera para trabalhos do Slurm no cluster | N/D |
Métricas em nível de instância
As seguintes métricas em nível de instância estão disponíveis para. HyperPod Essas métricas também usam a ClusterId
dimensão para identificar o HyperPod cluster específico.
CloudWatch nome da métrica | Observações | Nome da métrica do Amazon EKS Container Insights |
---|---|---|
utilização de node_gpu_ | Utilização média da GPU em todas as instâncias | utilização de node_gpu_ |
node_gpu_memory_utilization | Utilização média da memória da GPU em todas as instâncias | node_gpu_memory_utilization |
node_cpu_utilization | Utilização média da CPU em todas as instâncias | node_cpu_utilization |
node_memory_utilization | Utilização média da memória em todas as instâncias | node_memory_utilization |