本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
导出的指标参考
以下各节列出了成功配置堆栈 SageMaker HyperPod 以实现可观察性后从亚马逊托管服务 Prometheus 导出的指标的完整列表。 AWS CloudFormation SageMaker HyperPod 您可以在 Amazon Managed Grafana 面板中开始监控这些可视化指标。
Slurm 导出程序控制面板
提供 Slurm 集群的可视化信息。 SageMaker HyperPod
指标类型
-
集群概览:显示节点、作业总数及其状态。
-
作业指标:可视化一段时间内的作业数量和状态。
-
节点指标:显示节点状态、分配和可用资源。
-
分区指标:监控特定分区的指标,如 CPU、内存和 GPU 利用率。
-
作业效率:根据使用的资源计算作业效率。
指标列表
指标名称 | 描述 |
---|---|
slurm_job_count |
Slurm 集群中的作业总数 |
slurm_job_state_count |
处于各种状态(如运行中、待处理、已完成)的作业数 |
slurm_node_count
|
Slurm 集群的节点总数 |
slurm_node_state_count
|
处于各种状态(如空闲、分配、混合)的节点数 |
slurm_partition_node_count
|
每个分区的节点数 |
slurm_partition_job_count
|
每个分区的作业计数 |
slurm_partition_alloc_cpus
|
每个分区 CPUs 中分配的总数 |
slurm_partition_free_cpus
|
每个分区 CPUs 中可用的总数 |
slurm_partition_alloc_memory
|
每个分区分配的内存总量 |
slurm_partition_free_memory
|
每个分区的可用内存总量 |
slurm_partition_alloc_gpus
|
每个分区 GPUs 中分配的总数 |
slurm_partition_free_gpus
|
每个分区 GPUs 中的可用总数 |
节点导出程序控制面板
提供 Prometheus
指标类型
-
系统概述:显示 CPU 负载平均值和内存使用情况。
-
内存指标:可视化内存使用情况,包括总内存、可用内存和交换空间。
-
磁盘使用情况:监控磁盘空间利用率和可用性。
-
网络流量:显示一段时间内接收和传输的网络字节数。
-
文件系统指标:分析文件系统的使用情况和可用性。
-
磁盘 I/O 指标:可视化磁盘读写活动。
指标列表
有关导出的指标的完整列表,请参阅 Node 导出器
指标名称 | 描述 |
---|---|
node_load1
|
1 分钟平均负荷 |
node_load5
|
5 分钟平均负荷 |
node_load15
|
15 分钟平均负荷 |
node_memory_MemTotal
|
系统内存总量 |
node_memory_MemFree
|
释放系统内存 |
node_memory_MemAvailable
|
可分配给进程的可用内存 |
node_memory_Buffers
|
内核用于缓冲的内存 |
node_memory_Cached
|
内核用于缓存文件系统数据的内存 |
node_memory_SwapTotal
|
可用交换空间总数 |
node_memory_SwapFree
|
自由交换空间 |
node_memory_SwapCached
|
曾被换出的内存被换回,但仍处于交换状态 |
node_filesystem_avail_bytes
|
可用磁盘空间(单位:字节) |
node_filesystem_size_bytes
|
磁盘空间总量(单位:字节) |
node_filesystem_free_bytes
|
可用磁盘空间(单位:字节) |
node_network_receive_bytes
|
收到的网络字节数 |
node_network_transmit_bytes
|
传输的网络字节数 |
node_disk_read_bytes
|
读取的磁盘字节数 |
node_disk_written_bytes
|
写入的磁盘字节数 |
NVIDIA DCGM 导出程序控制面板
提供由 NVIDIA DCGM 导出程序
指标类型
-
GPU 概览:显示 GPU 利用率、温度、功耗和内存使用情况。
-
温度指标:可视化 GPU 随时间变化的温度。
-
电源使用:监控 GPU 功耗和用电趋势。
-
内存使用情况:分析 GPU 内存使用情况,包括已用内存、可用内存和总内存。
-
风扇速度:显示 GPU 风扇速度和变化。
-
ECC 错误:跟踪 GPU 内存 ECC 错误和待处理错误。
指标列表
下表列出的指标可帮助用户深入了解 NVIDIA GPU 的运行状况和性能,包括时钟频率、温度、用电量、内存利用率、风扇速度和错误指标。
指标名称 | 描述 |
---|---|
DCGM_FI_DEV_SM_CLOCK
|
SM 时钟频率 (in MHz) |
DCGM_FI_DEV_MEM_CLOCK
|
内存时钟频率 (in MHz) |
DCGM_FI_DEV_MEMORY_TEMP
|
内存温度(单位:摄氏度) |
DCGM_FI_DEV_GPU_TEMP
|
GPU 温度(单位:摄氏度) |
DCGM_FI_DEV_POWER_USAGE
|
耗电量(单位:瓦) |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
|
启动以来的总能耗(单位:兆焦耳) |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER
|
PCIe 重试总次数 |
DCGM_FI_DEV_MEM_COPY_UTIL
|
内存利用率(单位:%) |
DCGM_FI_DEV_ENC_UTIL
|
编码器利用率(单位:%) |
DCGM_FI_DEV_DEC_UTIL
|
解码器利用率(单位:%) |
DCGM_FI_DEV_XID_ERRORS
|
最后遇到的 XID 错误值 |
DCGM_FI_DEV_FB_FREE
|
帧缓冲区可用内存(单位:MB) |
DCGM_FI_DEV_FB_USED
|
使用的帧缓冲区内存(单位:MB) |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL
|
所有通道的 NVLink 带宽计数器总数 |
DCGM_FI_DEV_VGPU_LICENSE_STATUS
|
vGPU 许可证状态 |
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS
|
无法纠正错误的重新映射行数 |
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS
|
可纠正错误的重新映射行数 |
DCGM_FI_DEV_ROW_REMAP_FAILURE
|
行的重新映射是否失败 |
全民教育指标控制面板
提供由 EFA 节点导出程序收集的 P 实例上配备的 Amazon Elastic Fabric Adapter(EFA)
指标类型
-
EFA 错误指标:可视化分配错误、命令错误和内存映射错误等错误。
-
EFA 网络流量:监控接收和传输的字节、数据包和作业请求。
-
EFA RDMA 性能:分析 RDMA 读写操作,包括传输字节数和错误率。
-
EFA 端口寿命:显示 EFA 端口随时间变化的寿命。
-
EFA 保持连接数据包:跟踪收到的保持连接数据包的数量。
指标列表
下表列出了可深入了解 EFA 运行各个方面的指标,包括错误、已完成命令、网络流量和资源利用率。
指标名称 | 描述 |
---|---|
node_amazonefa_info
|
非数字数据from /sys/class/infiniband/,值始终为 1。 |
node_amazonefa_lifespan
|
端口寿命 |
node_amazonefa_rdma_read_bytes
|
RDMA 读取的字节数 |
node_amazonefa_rdma_read_resp_bytes
|
RDMA 读取响应字节数 |
node_amazonefa_rdma_read_wr_err
|
RDMA 读写错误次数 |
node_amazonefa_rdma_read_wrs
|
RDMA 的读取次数 |
node_amazonefa_rdma_write_bytes
|
RDMA 写入的字节数 |
node_amazonefa_rdma_write_recv_bytes
|
RDMA 写入和接收的字节数 |
node_amazonefa_rdma_write_wr_err
|
写入的错误 RDMA 字节数 |
node_amazonefa_rdma_write_wrs
|
写入的 wrs RDMA 字节数 |
node_amazonefa_recv_bytes
|
接收的字节数 |
node_amazonefa_recv_wrs
|
接收的 wrs 字节数 |
node_amazonefa_rx_bytes
|
接收的字节数 |
node_amazonefa_rx_drops
|
丢弃的数据包数量 |
node_amazonefa_rx_pkts
|
接收的数据包数量 |
node_amazonefa_send_bytes
|
发送的字节数 |
node_amazonefa_send_wrs
|
发送的 wrs 数量 |
node_amazonefa_tx_bytes
|
传输的字节数 |
node_amazonefa_tx_pkts
|
传输的数据包数量 |
FSx 适用于 Lustre 指标控制面板
提供亚马逊从 Amazon for Lustre 文件系统收集 FSx 的指标的可视化信息。 CloudWatch
注意
Grafana FSx for Lustre 控制面板使用 CloudWatch 亚马逊作为其数据源,这与您配置为使用适用于 Prometheus 的亚马逊托管服务的其他控制面板不同。为确保准确监控和可视化与 for Lustre 文件系统相关的指标,请将 for Lustre 控制面板配置 FSx 为使用 Amazon CloudWatch 作为数据源,指定与 for Lustre 文件系统的部署 AWS 区域 位置相同。 FSx FSx
指标类型
-
DataReadBytes:文件系统读取操作的字节数。
-
DataWriteBytes:文件系统写入操作的字节数。
-
DataReadOperations:读取操作的数量。
-
DataWriteOperations:写入操作的数量。
-
MetadataOperations:元数据操作的数量。
-
FreeDataStorageCapacity:可用存储容量。