Selecione suas preferências de cookies

Usamos cookies essenciais e ferramentas semelhantes que são necessárias para fornecer nosso site e serviços. Usamos cookies de desempenho para coletar estatísticas anônimas, para que possamos entender como os clientes usam nosso site e fazer as devidas melhorias. Cookies essenciais não podem ser desativados, mas você pode clicar em “Personalizar” ou “Recusar” para recusar cookies de desempenho.

Se você concordar, a AWS e terceiros aprovados também usarão cookies para fornecer recursos úteis do site, lembrar suas preferências e exibir conteúdo relevante, incluindo publicidade relevante. Para aceitar ou recusar todos os cookies não essenciais, clique em “Aceitar” ou “Recusar”. Para fazer escolhas mais detalhadas, clique em “Personalizar”.

Métricas do Amazon SageMaker HyperPod Slurm

Modo de foco
Métricas do Amazon SageMaker HyperPod Slurm - SageMaker IA da Amazon

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

SageMaker HyperPod A Amazon fornece um conjunto de CloudWatch métricas da Amazon que você pode usar para monitorar a integridade e o desempenho dos seus HyperPod clusters. Essas métricas são coletadas do gerenciador de carga de trabalho do Slurm em execução em seus HyperPod clusters e estão disponíveis no namespace. /aws/sagemaker/Clusters CloudWatch

Métricas em nível de cluster

As seguintes métricas em nível de cluster estão disponíveis para. HyperPod Essas métricas usam a ClusterId dimensão para identificar o HyperPod cluster específico.

CloudWatch nome da métrica Observações Nome da métrica do Amazon EKS Container Insights
cluster_node_count Número total de nós no cluster cluster_node_count
cluster_idle_node_count Número de nós ociosos no cluster N/D
cluster_failed_node_count Número de nós com falha no cluster cluster_failed_node_count
contagem de cpu_cluster Total de núcleos de CPU no cluster node_cpu_limit
cluster_idle_cpu_count Número de núcleos de CPU ociosos no cluster N/D
contagem de gpu_cluster_ Total GPUs no cluster node_gpu_limit
cluster_idle_gpu_count Número de inativos GPUs no cluster N/D
contagem de tarefas em execução em cluster Número de trabalhos do Slurm em execução no cluster N/D
contagem de tarefas pendentes do cluster Número de trabalhos pendentes do Slurm no cluster N/D
contagem de tarefas preemptadas em cluster Número de trabalhos preemptivos do Slurm no cluster N/D
cluster_avg_task_wait_time Tempo médio de espera para trabalhos do Slurm no cluster N/D
cluster_max_task_wait_time Tempo máximo de espera para trabalhos do Slurm no cluster N/D

Métricas em nível de instância

As seguintes métricas em nível de instância estão disponíveis para. HyperPod Essas métricas também usam a ClusterId dimensão para identificar o HyperPod cluster específico.

CloudWatch nome da métrica Observações Nome da métrica do Amazon EKS Container Insights
utilização de node_gpu_ Utilização média da GPU em todas as instâncias utilização de node_gpu_
node_gpu_memory_utilization Utilização média da memória da GPU em todas as instâncias node_gpu_memory_utilization
node_cpu_utilization Utilização média da CPU em todas as instâncias node_cpu_utilization
node_memory_utilization Utilização média da memória em todas as instâncias node_memory_utilization
PrivacidadeTermos do sitePreferências de cookies
© 2025, Amazon Web Services, Inc. ou suas afiliadas. Todos os direitos reservados.