HyperPod クラスターにメトリクスエクスポーターパッケージをインストールする - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

HyperPod クラスターにメトリクスエクスポーターパッケージをインストールする

SageMaker HyperPod チームが提供する基本設定ライフサイクルスクリプトには、さまざまなメトリクスエクスポーターパッケージのインストールも含まれています。インストールステップを有効にするには、config.py ファイルでパラメータ enable_observability=True を設定するだけでかまいません。ライフサイクルスクリプトは、以下のオープンソースメトリクスエクスポーターパッケージを使用してクラスターをブートストラップするよう設計されています。

名前 スクリプトデプロイターゲットノード エクスポーターの説明
Prometheus 用の Slurm エクスポーター ヘッド (コントローラー) ノード

Slurm アカウンティングメトリクスをエクスポートします。

Elastic Fabric Adapter (EFA) ノードエクスポーター

コンピューティングノード

クラスターノードと EFA からメトリクスをエクスポートします。このパッケージは、Prometheus ノードエクスポーターのフォークです。

NVIDIA Data Center GPU Management (DCGM) エクスポーター

コンピューティングノード

NVIDIA GPU のヘルスおよびパフォーマンスに関する NVIDIA DCGM メトリックをエクスポートします。

config.py ファイル内の enable_observability=True では、次のインストールステップが lifecycle_script.py スクリプトでアクティブ化されます。

# Install metric exporting software and Prometheus for observability if Config.enable_observability: if node_type == SlurmNodeType.COMPUTE_NODE: ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_dcgm_exporter.sh").run() ExecuteBashScript("./utils/install_efa_node_exporter.sh").run() if node_type == SlurmNodeType.HEAD_NODE: wait_for_scontrol() ExecuteBashScript("./utils/install_docker.sh").run() ExecuteBashScript("./utils/install_slurm_exporter.sh").run() ExecuteBashScript("./utils/install_prometheus.sh").run()

コンピューティングノードで、スクリプトは NVIDIA Data Center GPU Management (DCGM) エクスポーターと Elastic Fabric Adapter (EFA) ノードエクスポーターをインストールします。DCGM エクスポーターは Prometheus 用のエクスポーターであり、NVIDIA GPU、GPU の使用状況、パフォーマンス、ヘルスのモニタリングを可能にします。一方、EFA ノードエクスポーターは、HPC クラスターの低レイテンシーおよび高帯域幅通信に不可欠な、EFA ネットワークインターフェイスに関連するメトリクスを収集します。

ヘッドノードで、スクリプトは Prometheus 用の Slurm エクスポーターと Prometheus オープンソースソフトウェアをインストールします。Slurm エクスポーターは、Slurm ジョブ、パーティション、ノード状態に関連するメトリクスを Prometheus に提供します。

ライフサイクルスクリプトはすべてのエクスポーターパッケージを Docker コンテナとしてインストールするよう設計されているため、Docker パッケージはヘッドノードとコンピューティングノードの両方にもインストールする必要があります。これらのコンポーネントのスクリプトは、Awsome Distributed Training GitHub リポジトリutils フォルダから簡単に入手できます。

エクスポーターパッケージでインストールされた HyperPod クラスターを正常に設定したら、次のトピックに進み、Amazon Managed Service for Prometheus と Amazon Managed Grafana の設定を完了します。