本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
驗證集群的頭節點上的 Prometheus 設置 HyperPod
成功設定使用匯出程式套件安裝的 HyperPod 叢集之後,請檢查叢集的主節點上是否已正確設定 Prometheus。 HyperPod
-
Connect 至叢集的頭節點。如需存取節點的指示,請參閱存取 SageMaker HyperPod叢集節點。
-
執行下列命令,以確認由生命週期指令碼建立的 Prometheus 組態和服務檔案
install_prometheus.sh
是否在控制器節點上執行。輸出應該顯示「活動」狀態為active (running)
。$
sudo systemctl status prometheus
• prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active:
active (running)
since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml -
驗證 Prometheus 配置文件,如下所示。輸出必須類似以下內容,其中三個匯出器設定了正確的計算節點 IP 位址。
$
cat /etc/prometheus/prometheus.yml
global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
-
若要測試 Prometheus 是否正確匯出 Slurm、DCGM 和 EFA 度量,請針對頭節點上的連接埠上的 Prometheus 執行下列
curl
命令。:9090
$
curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'
透過 Prometheus 遠端寫入組態從控制器節點匯出至 Prometheus 工作區的 Amazon 受管服務的指標後,您可以繼續進行下一個主題,以設定 Amazon 受管 Grafana 儀表板以顯示指標。