在 HyperPod 叢集上安裝指標匯出工具套件

焦點模式

在 HyperPod 叢集上安裝指標匯出工具套件 - Amazon SageMaker AI

在 SageMaker HyperPod 團隊提供的基本組態生命週期指令碼中，也包含安裝各種指標匯出器套件。若要啟用安裝步驟，您唯一需要做的就是在 enable_observability=True config.py 檔案中設定參數。生命週期指令碼旨在使用下列開放原始碼指標匯出工具套件來引導您的叢集。

名稱	指令碼部署目標節點	匯出工具描述
Prometheus 的 Slurm Exporter	頭部（控制器）節點	匯出 Slurm 會計指標。
Elastic Fabric Adapter (EFA) 節點匯出器	運算節點	從叢集節點和 EFA 匯出指標。套件是 Prometheus 節點匯出器的分支。
NVIDIA 資料中心 GPU 管理 (DCGM) 匯出工具	運算節點	匯出有關 NVIDIA GPUs 運作狀態和效能的 NVIDIA DCGM 指標。

在 enable_observability=True config.py 檔案中使用，會在lifecycle_script.py指令碼中啟用下列安裝步驟。


# Install metric exporting software and Prometheus for observability
if Config.enable_observability:
    if node_type == SlurmNodeType.COMPUTE_NODE:
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_dcgm_exporter.sh").run()
        ExecuteBashScript("./utils/install_efa_node_exporter.sh").run()

    if node_type == SlurmNodeType.HEAD_NODE:
        wait_for_scontrol()
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_slurm_exporter.sh").run()
        ExecuteBashScript("./utils/install_prometheus.sh").run()

在運算節點上，指令碼會安裝 NVIDIA 資料中心 GPU 管理 (DCGM) 匯出器和彈性布料轉接器 (EFA) 節點匯出器。DCGM 匯出工具是 Prometheus 的匯出工具，可從 NVIDIA GPUs 收集指標，進而監控 GPU 用量、效能和運作狀態。另一方面，EFA 節點匯出工具會收集與 EFA 網路介面相關的指標，這對於 HPC 叢集中的低延遲和高頻寬通訊至關重要。

在主機節點上，指令碼會安裝適用於 Prometheus 的 Slurm 匯出器和 Prometheus 開放原始碼軟體。Slurm 匯出工具提供 Prometheus 與 Slurm 任務、分割區和節點狀態相關的指標。

請注意，生命週期指令碼旨在將所有匯出工具套件安裝為 Docker 容器，因此 Docker 套件也應該同時安裝在主機和運算節點上。這些元件的指令碼在 Awsome 分散式訓練 GitHub 儲存庫的 utils 資料夾中提供。

成功設定與匯出工具套件一起安裝的 HyperPod 叢集後，請繼續下一個主題，以完成設定 Amazon Managed Service for Prometheus 和 Amazon Managed Grafana。

您的瀏覽器已停用或無法使用 Javascript。

您必須啟用 Javascript，才能使用 AWS 文件。請參閱您的瀏覽器說明頁以取得說明。

文件慣用形式

完成事前準備

驗證 Prometheus 設定

下一個主題：

驗證 Prometheus 設定

上一個主題：

完成事前準備

需要協助？

選取您的 Cookie 偏好設定

自訂 Cookie 偏好設定

必要

效能

功能

廣告

無法儲存 Cookie 偏好設定

在 HyperPod 叢集上安裝指標匯出工具套件

下一個主題：

上一個主題：

需要協助？

Related resources

此頁面是否有幫助？

Related resources