本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 SageMaker HyperPod 團隊提供的基本組態生命週期指令碼中,也包含安裝各種指標匯出器套件。若要啟用安裝步驟,您唯一需要做的就是在 enable_observability=True
config.py
名稱 | 指令碼部署目標節點 | 匯出工具描述 |
Prometheus 的 Slurm Exporter |
頭部 (控制器) 節點 |
匯出 Slurm 會計指標。 |
運算節點 |
從叢集節點和 EFA 匯出指標。套件是 Prometheus 節點匯出器 |
|
運算節點 |
匯出有關 NVIDIA GPUs 運作狀態和效能的 NVIDIA DCGM 指標。 |
enable_observability=True
在 config.py
lifecycle_script.py
# Install metric exporting software and Prometheus for observability
if Config.enable_observability:
if node_type == SlurmNodeType.COMPUTE_NODE:
ExecuteBashScript("./utils/install_docker.sh").run()
ExecuteBashScript("./utils/install_dcgm_exporter.sh").run()
ExecuteBashScript("./utils/install_efa_node_exporter.sh").run()
if node_type == SlurmNodeType.HEAD_NODE:
wait_for_scontrol()
ExecuteBashScript("./utils/install_docker.sh").run()
ExecuteBashScript("./utils/install_slurm_exporter.sh").run()
ExecuteBashScript("./utils/install_prometheus.sh").run()
在運算節點上,指令碼會安裝 NVIDIA 資料中心 GPU 管理 (DCGM) 匯出器和 Elastic Fabric Adapter (EFA) 節點匯出器。DCGM 匯出工具是 Prometheus 的匯出工具,可從 NVIDIA GPUs 收集指標,進而監控 GPU 用量、效能和運作狀態。另一方面,EFA 節點匯出工具會收集與 EFA 網路介面相關的指標,這對於 HPC 叢集中的低延遲和高頻寬通訊至關重要。
在主節點上,指令碼會安裝適用於 Prometheus 的 Slurm 匯出器和 Prometheus 開放原始碼軟體
請注意,生命週期指令碼旨在將所有匯出工具套件安裝為 Docker 容器,因此 Docker 套件也應該同時安裝在主機和運算節點上。這些元件的指令碼在 Awsome 分散式訓練 GitHub 儲存庫的 utils
成功設定與匯出工具套件一起安裝的 HyperPod 叢集後,請繼續下一個主題,以完成設定 Amazon Managed Service for Prometheus 和 Amazon Managed Grafana。