Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Metrik Amazon SageMaker HyperPod Slurm
Amazon SageMaker HyperPod menyediakan satu set CloudWatch metrik Amazon yang dapat Anda gunakan untuk memantau kesehatan dan kinerja HyperPod klaster Anda. Metrik ini dikumpulkan dari manajer beban kerja Slurm yang berjalan di HyperPod cluster Anda dan tersedia di namespace. /aws/sagemaker/Clusters
CloudWatch
Metrik tingkat klaster
Metrik tingkat cluster berikut tersedia untuk. HyperPod Metrik ini menggunakan ClusterId
dimensi untuk mengidentifikasi HyperPod cluster tertentu.
nama metrik | Catatan | Metrik-metrik Wawasan Kontainer Amazon ECS |
---|---|---|
cluster_node_count | Jumlah total simpul pekerja yang ada di klaster. | cluster_node_count |
cluster_idle_node_count | Jumlah simpul warm di klaster. | N/A |
cluster_failed_node_count | Jumlah simpul pekerja yang mengalami kegagalan dalam klaster. | cluster_failed_node_count |
cluster_cpu_count | Total core CPU di cluster | node_cpu_limit |
cluster_idle_cpu_count | Jumlah core CPU idle di cluster | N/A |
cluster_gpu_count | Total GPUs dalam cluster | node_gpu_limit |
cluster_idle_gpu_count | Jumlah idle GPUs di cluster | N/A |
cluster_running_task_count | Jumlah pekerjaan Slurm yang berjalan di cluster | N/A |
cluster_pending_task_count | Jumlah pekerjaan Slurm yang tertunda di cluster | N/A |
cluster_preempted_task_count | Jumlah pekerjaan Slurm yang dipreempted di cluster | N/A |
cluster_avg_task_wait_time | Waktu tunggu rata-rata untuk pekerjaan Slurm di cluster | N/A |
cluster_max_task_wait_time | Waktu tunggu maksimum untuk pekerjaan Slurm di cluster | N/A |
Metrik tingkat instans
Metrik instans berikut tersedia. Metrik ini juga menggunakan ClusterId
dimensi untuk mengidentifikasi HyperPod cluster tertentu.
nama metrik | Catatan | Metrik-metrik Wawasan Kontainer Amazon ECS |
---|---|---|
node_gpu_utilisasi | Pemanfaatan GPU rata-rata di semua instans | node_gpu_utilisasi |
node_gpu_memory_utilization | Pemanfaatan memori GPU rata-rata di semua instance | node_gpu_memory_utilization |
node_cpu_utilization | Untuk mendapatkan rata-rata pemanfaatan CPU di seluruh instans Anda () | node_cpu_utilization |
node_memory_utilization | Pemanfaatan memori rata-rata di semua instance | node_memory_utilization |