翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
HyperPod クラスターにメトリクスエクスポーターパッケージをインストールする
SageMaker HyperPod チームが提供する基本設定ライフサイクルスクリプトには、さまざまなメトリクスエクスポーターパッケージのインストールも含まれています。インストールステップを有効にするには、config.py
enable_observability=True
を設定するだけでかまいません。ライフサイクルスクリプトは、以下のオープンソースメトリクスエクスポーターパッケージを使用してクラスターをブートストラップするよう設計されています。
名前 | スクリプトデプロイターゲットノード | エクスポーターの説明 |
Prometheus 用の Slurm エクスポーター |
ヘッド (コントローラー) ノード |
Slurm アカウンティングメトリクスをエクスポートします。 |
コンピューティングノード |
クラスターノードと EFA からメトリクスをエクスポートします。このパッケージは、Prometheus ノードエクスポーター |
|
コンピューティングノード |
NVIDIA GPU のヘルスおよびパフォーマンスに関する NVIDIA DCGM メトリックをエクスポートします。 |
config.py
enable_observability=True
では、次のインストールステップが lifecycle_script.py
# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()
コンピューティングノードで、スクリプトは NVIDIA Data Center GPU Management (DCGM) エクスポーターと Elastic Fabric Adapter (EFA) ノードエクスポーターをインストールします。DCGM エクスポーターは Prometheus 用のエクスポーターであり、NVIDIA GPU、GPU の使用状況、パフォーマンス、ヘルスのモニタリングを可能にします。一方、EFA ノードエクスポーターは、HPC クラスターの低レイテンシーおよび高帯域幅通信に不可欠な、EFA ネットワークインターフェイスに関連するメトリクスを収集します。
ヘッドノードで、スクリプトは Prometheus 用の Slurm エクスポーターと Prometheus オープンソースソフトウェア
ライフサイクルスクリプトはすべてのエクスポーターパッケージを Docker コンテナとしてインストールするよう設計されているため、Docker パッケージはヘッドノードとコンピューティングノードの両方にもインストールする必要があります。これらのコンポーネントのスクリプトは、Awsome Distributed Training GitHub リポジトリの utils
エクスポーターパッケージでインストールされた HyperPod クラスターを正常に設定したら、次のトピックに進み、Amazon Managed Service for Prometheus と Amazon Managed Grafana の設定を完了します。