收集 NVIDIA GPU 指标
您可以使用 CloudWatch 代理从 Linux 服务器收集 NVIDIA GPU 指标。要对此进行设置,请在 CloudWatch 代理配置文件的 metrics_collected
部分中添加 nvidia_gpu
部分。有关更多信息,请参阅 Linux 部分。
此外,该实例必须已经安装 NVIDIA 驱动程序。某些亚马逊机器映像(AMI)上已经预装 NVIDIA 驱动程序。如果没有安装,您可以手动安装该驱动程序。有关更多信息,请参见在 Linux 实例上安装 NVIDIA 驱动程序。
可以收集以下指标。所有这些指标都在没有 CloudWatch Unit
的情况下收集,但是您可以通过向 CloudWatch 代理配置文件添加参数来为每个指标指定单位。有关更多信息,请参阅 Linux 部分。
指标 | CloudWatch 的指标名称 | 描述 |
---|---|---|
|
|
在过去的采样周期内 GPU 上的一个或多个内核运行的时间百分比。 |
|
|
GPU 核心温度(以摄氏度为单位)。 |
|
|
上次测量的整个显卡功耗(以瓦为单位)。 |
|
|
在过去的样本周期内读取或写入全局(设备)内存的时间百分比。 |
|
|
设备风扇目前预计以最大风扇速度运行的百分比。 |
|
|
报告的总内存(以 MB 为单位)。 |
|
|
已使用的内存(以 MB 为单位)。 |
|
|
空闲内存(以 MB 为单位)。 |
|
|
当前链接生成。 |
|
|
当前链接宽度。 |
|
|
当前编码器会话数量。 |
|
|
每秒编码帧数的移动平均值。 |
|
|
编码延迟的移动平均值(以微秒为单位)。 |
|
|
显卡(着色器)时钟的当前频率。 |
|
|
流式多处理器(SM)时钟的当前频率。 |
|
|
内存时钟的当前频率。 |
|
|
视频(编码器加解码器)时钟的当前频率。 |
所有这些指标都使用以下维度收集:
维度 | 描述 |
---|---|
|
此服务器上 GPU 的唯一标识符。表示设备的 NVIDIA 管理库(NVML)索引。 |
|
GPU 类型。例如, |
|
服务器主机名。 |