選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

在 HyperPod 叢集的主機節點上驗證 Prometheus 設定

焦點模式
在 HyperPod 叢集的主機節點上驗證 Prometheus 設定 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

成功設定與匯出工具套件一起安裝的 HyperPod 叢集後,請檢查是否已在 HyperPod 叢集的頭節點上正確設定 Prometheus。

  1. 連接至叢集的主機節點。如需存取節點的說明,請參閱存取 SageMaker HyperPod 叢集節點

  2. 執行下列命令,以確認生命週期指令碼建立的 Prometheus 組態和服務檔案install_prometheus.sh正在控制器節點上執行。輸出應會顯示作用中狀態為 active (running)

    $ sudo systemctl status prometheus • prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
  3. 驗證 Prometheus 組態檔案,如下所示。輸出必須類似於以下內容,其中三個匯出器已設定正確的運算節點 IP 地址。

    $ cat /etc/prometheus/prometheus.yml global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
  4. 若要測試 Prometheus 是否正確匯出 Slurm、DCGM 和 EFA 指標,請在主機節點:9090的連接埠上執行下列 Prometheus curl命令。

    $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'

    透過從控制器節點的 Prometheus 遠端寫入組態匯出至 Amazon Managed Service for Prometheus Workspace 的指標,您可以繼續下一個主題,設定 Amazon Managed Grafana 儀表板以顯示指標。

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。