在集群的头节点上验证 Prometheus 设置 HyperPod - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在集群的头节点上验证 Prometheus 设置 HyperPod

成功设置安装了导出器包的 HyperPod 集群后,请检查集群的主节点上是否正确设置了 Prometheus。 HyperPod

  1. Connect 连接到集群的主节点。有关访问节点的说明,请参阅访问您的 SageMaker HyperPod集群节点

  2. 运行以下命令以验证生命周期install_prometheus.sh脚本创建的 Prometheus 配置和服务文件是否在控制器节点上运行。输出应将 “活动” 状态显示为active (running)

    $ sudo systemctl status prometheus • prometheus service - Prometheus Exporter Loaded: loaded (/etc/systemd/system/prometheus.service; enabled; preset:disabled) Active: active (running) since DAY YYYY-MM-DD HH:MM:SS UTC; Ss ago Main PID: 12345 (prometheus) Tasks: 7 (limit: 9281) Memory: 35M CPU: 234ms CGroup: /system.slice/prometheus.service -12345 /usr/bin/prometheus--config.file=/etc/prometheus/prometheus.yml
  3. 按如下方式验证 Prometheus 配置文件。输出必须与以下内容类似,三个导出器配置了正确的计算节点 IP 地址。

    $ cat /etc/prometheus/prometheus.yml global: scrape_interval: 15s evaluation_interval: 15s scrape_timeout: 15s scrape_configs: - job_name: 'slurm_exporter' static_configs: - targets: - 'localhost:8080' - job_name: 'dcgm_exporter' static_configs: - targets: - '<ComputeNodeIP>:9400' - '<ComputeNodeIP>:9400' - job_name: 'efa_node_exporter' static_configs: - targets: - '<ComputeNodeIP>:9100' - '<ComputeNodeIP>:9100' remote_write: - url: <AMPReoteWriteURL> queue_config: max_samples_per_send: 1000 max_shards: 200 capacity: 2500 sigv4: region: <Region>
  4. 要测试 Prometheus 是否正确导出 Slurm、DCGM 和 EFA 指标,请在头节点的端口上为 Prometheus 运行以下curl命令。:9090

    $ curl -s http://localhost:9090/metrics | grep -E 'slurm|dcgm|efa'

    通过控制器节点的 Prometheus 远程写入配置将指标导出到亚马逊 Prometheus Workspace 托管服务后,您可以继续下一个主题,设置亚马逊托管 Grafana 控制面板来显示指标。