收集 NVIDIA GPU 指標 - Amazon CloudWatch

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

收集 NVIDIA GPU 指標

您可以使用 CloudWatch 代理程式從 Linux 伺服器收集 NVIDIA GPU 指標。若要進行設定,請在 CloudWatch 代理程式組態檔的metrics_collected區段中新增區段。nvidia_gpu如需詳細資訊,請參閱 Linux 區段

此外,執行個體必須已安裝 NVIDIA 驅動程式。某些 Amazon Machine Image (AMI) 上預先安裝了 NVIDIA 驅動程式。或者,可以手動安裝驅動程式。如需詳細資訊,請參閱在 Linux 執行個體上安裝 NVIDIA 驅動程式

可以收集以下指標。所有這些測量結果都是否收集的 CloudWatch Unit,但您可以將參數新增至 CloudWatch 代理程式組態檔,以指定每個測量結果的單位。如需詳細資訊,請參閱 Linux 區段

指標 測量結果名稱 CloudWatch 描述

utilization_gpu

nvidia_smi_utilization_gpu

在過去的抽樣週期內,GPU 上的一個或多個核心執行的時間百分比。

temperature_gpu

nvidia_smi_temperature_gpu

核心 GPU 溫度 (以攝氏度為單位)。

power_draw

nvidia_smi_power_draw

整個電路板的最後一次測量功耗 (以瓦特為單位)。

utilization_memory

nvidia_smi_utilization_memory

在過去的抽樣週期內讀取或寫入全域 (裝置) 記憶體的時間百分比。

fan_speed

nvidia_smi_fan_speed

裝置風扇目前計劃執行的最大風扇速度百分比。

memory_total

nvidia_smi_memory_total

記錄的記憶體總計 (MB)。

memory_used

nvidia_smi_memory_used

使用的記憶體 (MB)。

memory_free

nvidia_smi_memory_free

可用的記憶體 (MB)。

pcie_link_gen_current

nvidia_smi_pcie_link_gen_current

目前連結版本。

pcie_link_width_current

nvidia_smi_pcie_link_width_current

目前連結頻寬。

encoder_stats_session_count

nvidia_smi_encoder_stats_session_count

目前編碼器工作階段數。

encoder_stats_average_fps

nvidia_smi_encoder_stats_average_fps

每秒編碼影格的移動平均值。

encoder_stats_average_latency

nvidia_smi_encoder_stats_average_latency

編碼延遲的移動平均值 (以微秒為單位)。

clocks_current_graphics

nvidia_smi_clocks_current_graphics

圖形 (著色器) 時脈的目前頻率。

clocks_current_sm

nvidia_smi_clocks_current_sm

串流多處理器 (SM) 時脈的目前頻率。

clocks_current_memory

nvidia_smi_clocks_current_memory

記憶體時脈的目前頻率。

clocks_current_video

nvidia_smi_clocks_current_video

影片 (編碼器與解碼器) 時脈的目前頻率。

所有這些指標均採用以下維度進行收集:

維度 描述

index

此伺服器上 GPU 的唯一識別碼。表示裝置的 NVIDIA 管理庫 (NVML) 索引。

name

GPU 的類型。例如 NVIDIA Tesla A100

host

伺服器主機名稱。