NVIDIA GPU メトリクスを収集する
CloudWatch エージェントを使用して、Linux サーバーから NVIDIA GPU メトリクスを収集できます。これを設定するには、CloudWatch エージェント設定ファイルの metrics_collected
セクション内に nvidia_gpu
セクションを追加します。詳細については、「Linux のセクション」を参照してください。
さらに、インスタンスには NVIDIA ドライバーがインストールされている必要があります。NVIDIA ドライバーは、一部の Amazon マシンイメージ (AMI) にプリインストールされています。それ以外の場合は、ドライバーを手動でインストールできます。詳細については、「Linux インスタンスへの NVIDIA ドライバーのインストール」を参照してください。
次のメトリクスを収集できます。これらのメトリクススはすべて CloudWatch Unit
なしで収集されますが、CloudWatch エージェント設定ファイルにパラメータを追加することで、各メトリクスの単位を指定できます。詳細については、「Linux のセクション」を参照してください。
メトリクス | CloudWatch のメトリクス名 | 説明 |
---|---|---|
|
|
GPU 上の 1 つ以上のカーネルが実行されていた過去のサンプル期間における時間の割合。 |
|
|
コア GPU 温度 (摂氏)。 |
|
|
ボード全体で最後に測定された電力消費量 (ワット)。 |
|
|
グローバル (デバイス) メモリの読み取りまたは書き込みが行われていた過去のサンプル期間における時間の割合。 |
|
|
デバイスのファンが現在意図している最大ファン速度に対する割合。 |
|
|
レポートされた合計メモリ (MB)。 |
|
|
使用済みメモリ (MB)。 |
|
|
利用可能なメモリ (MB)。 |
|
|
現在のリンク生成。 |
|
|
現在のリンク幅。 |
|
|
現在のエンコーダセッション数。 |
|
|
エンコードフレーム/秒の移動平均。 |
|
|
エンコードレイテンシーの移動平均 (マイクロ秒)。 |
|
|
グラフィックス (シェーダー) クロックの現在の周波数。 |
|
|
Streaming Multiprocessor (SM) クロックの現在の周波数。 |
|
|
メモリクロックの現在の周波数。 |
|
|
動画 (エンコーダとデコーダ) クロックの現在の周波数。 |
これらのメトリクスはすべて、次のディメンションで収集されます。
ディメンション | 説明 |
---|---|
|
このサーバー上の GPU の一意の識別子。デバイスの NVIDIA Management Library (NVML) インデックスを表します。 |
|
GPU の種類。例: |
|
サーバーのアーキテクチャ |