選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

在 HyperPod 叢集上安裝指標匯出工具套件

焦點模式
在 HyperPod 叢集上安裝指標匯出工具套件 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 SageMaker HyperPod 團隊提供的基本組態生命週期指令碼中,也包含安裝各種指標匯出器套件。若要啟用安裝步驟,您唯一需要做的就是在 enable_observability=True config.py 檔案中設定 參數。生命週期指令碼旨在使用下列開放原始碼指標匯出工具套件來引導您的叢集。

名稱 指令碼部署目標節點 匯出工具描述
Prometheus 的 Slurm Exporter 頭部 (控制器) 節點

匯出 Slurm 會計指標。

Elastic Fabric Adapter (EFA) 節點匯出器

運算節點

從叢集節點和 EFA 匯出指標。套件是 Prometheus 節點匯出器的分支。

NVIDIA 資料中心 GPU 管理 (DCGM) 匯出工具

運算節點

匯出有關 NVIDIA GPUs 運作狀態和效能的 NVIDIA DCGM 指標。

enable_observability=Trueconfig.py 檔案中,在 lifecycle_script.py 指令碼中啟用下列安裝步驟。

# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()

在運算節點上,指令碼會安裝 NVIDIA 資料中心 GPU 管理 (DCGM) 匯出器和 Elastic Fabric Adapter (EFA) 節點匯出器。DCGM 匯出工具是 Prometheus 的匯出工具,可從 NVIDIA GPUs 收集指標,進而監控 GPU 用量、效能和運作狀態。另一方面,EFA 節點匯出工具會收集與 EFA 網路介面相關的指標,這對於 HPC 叢集中的低延遲和高頻寬通訊至關重要。

在主節點上,指令碼會安裝適用於 Prometheus 的 Slurm 匯出器和 Prometheus 開放原始碼軟體。Slurm 匯出工具提供 Prometheus 與 Slurm 任務、分割區和節點狀態相關的指標。

請注意,生命週期指令碼旨在將所有匯出工具套件安裝為 Docker 容器,因此 Docker 套件也應該同時安裝在主機和運算節點上。這些元件的指令碼在 Awsome 分散式訓練 GitHub 儲存庫utils 資料夾中提供。

成功設定與匯出工具套件一起安裝的 HyperPod 叢集後,請繼續下一個主題,以完成設定 Amazon Managed Service for Prometheus 和 Amazon Managed Grafana。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。