NVIDIA GPU メトリクスを収集する - Amazon CloudWatch

NVIDIA GPU メトリクスを収集する

CloudWatch エージェントを使用して、Linux サーバーから NVIDIA GPU メトリクスを収集できます。これを設定するには、CloudWatch エージェント設定ファイルの metrics_collected セクション内に nvidia_gpu セクションを追加します。詳細については、「Linux のセクション」を参照してください。

さらに、インスタンスには NVIDIA ドライバーがインストールされている必要があります。NVIDIA ドライバーは、一部の Amazon マシンイメージ (AMI) にプリインストールされています。それ以外の場合は、ドライバーを手動でインストールできます。詳細については、「Linux インスタンスへの NVIDIA ドライバーのインストール」を参照してください。

次のメトリクスを収集できます。これらのメトリクススはすべて CloudWatch Unit なしで収集されますが、CloudWatch エージェント設定ファイルにパラメータを追加することで、各メトリクスの単位を指定できます。詳細については、「Linux のセクション」を参照してください。

メトリクス CloudWatch のメトリクス名 説明

utilization_gpu

nvidia_smi_utilization_gpu

GPU 上の 1 つ以上のカーネルが実行されていた過去のサンプル期間における時間の割合。

temperature_gpu

nvidia_smi_temperature_gpu

コア GPU 温度 (摂氏)。

power_draw

nvidia_smi_power_draw

ボード全体で最後に測定された電力消費量 (ワット)。

utilization_memory

nvidia_smi_utilization_memory

グローバル (デバイス) メモリの読み取りまたは書き込みが行われていた過去のサンプル期間における時間の割合。

fan_speed

nvidia_smi_fan_speed

デバイスのファンが現在意図している最大ファン速度に対する割合。

memory_total

nvidia_smi_memory_total

レポートされた合計メモリ (MB)。

memory_used

nvidia_smi_memory_used

使用済みメモリ (MB)。

memory_free

nvidia_smi_memory_free

利用可能なメモリ (MB)。

pcie_link_gen_current

nvidia_smi_pcie_link_gen_current

現在のリンク生成。

pcie_link_width_current

nvidia_smi_pcie_link_width_current

現在のリンク幅。

encoder_stats_session_count

nvidia_smi_encoder_stats_session_count

現在のエンコーダセッション数。

encoder_stats_average_fps

nvidia_smi_encoder_stats_average_fps

エンコードフレーム/秒の移動平均。

encoder_stats_average_latency

nvidia_smi_encoder_stats_average_latency

エンコードレイテンシーの移動平均 (マイクロ秒)。

clocks_current_graphics

nvidia_smi_clocks_current_graphics

グラフィックス (シェーダー) クロックの現在の周波数。

clocks_current_sm

nvidia_smi_clocks_current_sm

Streaming Multiprocessor (SM) クロックの現在の周波数。

clocks_current_memory

nvidia_smi_clocks_current_memory

メモリクロックの現在の周波数。

clocks_current_video

nvidia_smi_clocks_current_video

動画 (エンコーダとデコーダ) クロックの現在の周波数。

これらのメトリクスはすべて、次のディメンションで収集されます。

ディメンション 説明

index

このサーバー上の GPU の一意の識別子。デバイスの NVIDIA Management Library (NVML) インデックスを表します。

name

GPU の種類。例: NVIDIA Tesla A100

arch

サーバーのアーキテクチャ