HyperPod クラスターにメトリクスエクスポーターパッケージをインストールする

SageMaker HyperPod チームが提供する基本設定ライフサイクルスクリプトには、さまざまなメトリクスエクスポーターパッケージのインストールも含まれています。インストールステップを有効にするには、config.py ファイルでパラメータ enable_observability=True を設定するだけでかまいません。ライフサイクルスクリプトは、以下のオープンソースメトリクスエクスポーターパッケージを使用してクラスターをブートストラップするよう設計されています。

名前	スクリプトデプロイターゲットノード	エクスポーターの説明
Prometheus 用の Slurm エクスポーター	ヘッド (コントローラー) ノード	Slurm アカウンティングメトリクスをエクスポートします。
Elastic Fabric Adapter (EFA) ノードエクスポーター	コンピューティングノード	クラスターノードと EFA からメトリクスをエクスポートします。このパッケージは、Prometheus ノードエクスポーターのフォークです。
NVIDIA Data Center GPU Management (DCGM) エクスポーター	コンピューティングノード	NVIDIA GPU のヘルスおよびパフォーマンスに関する NVIDIA DCGM メトリックをエクスポートします。

config.py ファイル内の enable_observability=True では、次のインストールステップが lifecycle_script.py スクリプトでアクティブ化されます。


# Install metric exporting software and Prometheus for observability
if Config.enable_observability:
    if node_type == SlurmNodeType.COMPUTE_NODE:
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_dcgm_exporter.sh").run()
        ExecuteBashScript("./utils/install_efa_node_exporter.sh").run()

    if node_type == SlurmNodeType.HEAD_NODE:
        wait_for_scontrol()
        ExecuteBashScript("./utils/install_docker.sh").run()
        ExecuteBashScript("./utils/install_slurm_exporter.sh").run()
        ExecuteBashScript("./utils/install_prometheus.sh").run()

コンピューティングノードで、スクリプトは NVIDIA Data Center GPU Management (DCGM) エクスポーターと Elastic Fabric Adapter (EFA) ノードエクスポーターをインストールします。DCGM エクスポーターは Prometheus 用のエクスポーターであり、NVIDIA GPU、GPU の使用状況、パフォーマンス、ヘルスのモニタリングを可能にします。一方、EFA ノードエクスポーターは、HPC クラスターの低レイテンシーおよび高帯域幅通信に不可欠な、EFA ネットワークインターフェイスに関連するメトリクスを収集します。

ヘッドノードで、スクリプトは Prometheus 用の Slurm エクスポーターと Prometheus オープンソースソフトウェアをインストールします。Slurm エクスポーターは、Slurm ジョブ、パーティション、ノード状態に関連するメトリクスを Prometheus に提供します。

ライフサイクルスクリプトはすべてのエクスポーターパッケージを Docker コンテナとしてインストールするよう設計されているため、Docker パッケージはヘッドノードとコンピューティングノードの両方にもインストールする必要があります。これらのコンポーネントのスクリプトは、Awsome Distributed Training GitHub リポジトリの utils フォルダから簡単に入手できます。

エクスポーターパッケージでインストールされた HyperPod クラスターを正常に設定したら、次のトピックに進み、Amazon Managed Service for Prometheus と Amazon Managed Grafana の設定を完了します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

前提条件を満たす

Prometheus セットアップを検証する