Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
En las siguientes secciones se presentan listas completas de métricas exportadas desde SageMaker HyperPod Amazon Managed Service for Prometheus tras la correcta configuración de la pila para garantizar AWS CloudFormation la observabilidad. SageMaker HyperPod Puede empezar a supervisar estas métricas visualizadas en los paneles de Amazon Managed Grafana.
Panel del exportador de Slurm
Proporciona información visualizada de los clústeres de Slurm en. SageMaker HyperPod
Tipos de métricas
-
Información general acerca del clúster: muestra el número total de nodos, trabajos y sus estados.
-
Métricas de trabajo: muestran los recuentos y estados de los trabajos a lo largo del tiempo.
-
Métricas de nodo: muestra los estados, la asignación y los recursos disponibles de los nodos.
-
Métricas de partición: supervisan métricas específicas de una partición, como el uso de la CPU, la memoria y la GPU.
-
Eficiencia del trabajo: calcula la eficiencia del trabajo en función de los recursos utilizados.
Lista de métricas
Nombre de métrica | Descripción |
---|---|
slurm_job_count |
Número total de trabajos en el clúster de Slurm |
slurm_job_state_count |
Recuento de trabajos en cada estado (p. ej., en ejecución, pendientes o completados) |
slurm_node_count
|
Número total de nodos en el clúster de Slurm |
slurm_node_state_count
|
Recuento de nodos en cada estado (p. ej., inactivos, asignados, mixtos) |
slurm_partition_node_count
|
Recuento de nodos en cada partición |
slurm_partition_job_count
|
Recuento de trabajos en cada partición |
slurm_partition_alloc_cpus
|
Número total de unidades asignadas en cada partición CPUs |
slurm_partition_free_cpus
|
Número total de unidades disponibles CPUs en cada partición |
slurm_partition_alloc_memory
|
Memoria total asignada en cada partición |
slurm_partition_free_memory
|
Memoria total disponible en cada partición |
slurm_partition_alloc_gpus
|
Total asignado GPUs en cada partición |
slurm_partition_free_gpus
|
Total disponible GPUs en cada partición |
Panel del exportador de nodos
Proporciona información visualizada de las métricas del sistema recopiladas por el exportador de nodos de Prometheus desde los nodos
Tipos de métricas
-
Información general del sistema: muestra las cargas medias de la CPU y el uso de memoria.
-
Métricas de memoria: muestran el uso de la memoria, incluida la memoria total, la memoria libre y el espacio de intercambio.
-
Uso del disco: supervisa la utilización y la disponibilidad del espacio en disco.
-
Tráfico de red: muestra los bytes de red recibidos y transmitidos a lo largo del tiempo.
-
Métricas del sistema de archivos: analizan el uso y la disponibilidad del sistema de archivos.
-
Métricas de E/S de disco: muestran la actividad de lectura y escritura del disco.
Lista de métricas
Para obtener una lista completa de las métricas exportadas, consulte el exportador de nodos y los repositorios procfs
Nombre de métrica | Descripción |
---|---|
node_load1
|
Carga media en 1 minuto |
node_load5
|
Carga media en 5 minutos |
node_load15
|
Carga media en 15 minutos |
node_memory_MemTotal
|
Memoria total del sistema |
node_memory_MemFree
|
Memoria libre del sistema |
node_memory_MemAvailable
|
Memoria disponible para asignación a procesos |
node_memory_Buffers
|
Memoria utilizada por el kernel para el almacenamiento en el búfer |
node_memory_Cached
|
Memoria utilizada por el kernel para almacenar en caché los datos del sistema de archivos |
node_memory_SwapTotal
|
Espacio de intercambio total disponible |
node_memory_SwapFree
|
Espacio de intercambio libre |
node_memory_SwapCached
|
La memoria que ya se ha intercambiado antes se restaura, pero sigue en intercambio |
node_filesystem_avail_bytes
|
Espacio en disco disponible en bytes |
node_filesystem_size_bytes
|
Espacio total en disco en bytes |
node_filesystem_free_bytes
|
Espacio libre en disco en bytes |
node_network_receive_bytes
|
Bytes de red recibidos |
node_network_transmit_bytes
|
Bytes de red transmitidos |
node_disk_read_bytes
|
Bytes de disco leídos |
node_disk_written_bytes
|
Bytes de disco escritos |
Panel del exportador de NVIDIA DCGM
Proporciona información visualizada de las métricas de la GPU de NVIDIA que recopila el exportador de NVIDIA DCGM
Tipos de métricas
-
Información general de la GPU: muestra el uso de la GPU, las temperaturas, el consumo de energía y el uso de memoria.
-
Métricas de temperatura: muestra las temperaturas de la GPU a lo largo del tiempo.
-
Uso de energía: supervisa el consumo de energía de la GPU y las tendencias de uso de energía.
-
Utilización de memoria: analiza el uso de la memoria de la GPU, incluida la memoria utilizada, la memoria libre y la memoria total.
-
Velocidad del ventilador: muestra las velocidades y variaciones de los ventiladores de la GPU.
-
Errores de ECC: realiza un seguimiento de los errores de ECC y los errores pendientes de la memoria de la GPU.
Lista de métricas
En la siguiente tabla, se muestra una lista de las métricas que proporcionan información sobre el estado y el rendimiento de la GPU de NVIDIA, incluidas las frecuencias de reloj, las temperaturas, el uso de la energía, la utilización de la memoria, las velocidades de los ventiladores y las métricas de error.
Nombre de métrica | Descripción |
---|---|
DCGM_FI_DEV_SM_CLOCK
|
Frecuencia de reloj SM (pulgadas) MHz |
DCGM_FI_DEV_MEM_CLOCK
|
Frecuencia de reloj de memoria (pulgadas MHz) |
DCGM_FI_DEV_MEMORY_TEMP
|
Temperatura de la memoria (en °C) |
DCGM_FI_DEV_GPU_TEMP
|
Temperatura de la GPU (en °C) |
DCGM_FI_DEV_POWER_USAGE
|
Consumo de energía (en W) |
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION
|
Consumo total de energía desde el arranque (en mJ) |
DCGM_FI_DEV_PCIE_REPLAY_COUNTER
|
Número total de PCIe reintentos |
DCGM_FI_DEV_MEM_COPY_UTIL
|
Utilización de la memoria (en %) |
DCGM_FI_DEV_ENC_UTIL
|
Utilización del codificador (en %) |
DCGM_FI_DEV_DEC_UTIL
|
Utilización del decodificador (en %) |
DCGM_FI_DEV_XID_ERRORS
|
Valor del último error de XID detectado |
DCGM_FI_DEV_FB_FREE
|
Memoria de búfer de fotogramas libre (en MiB) |
DCGM_FI_DEV_FB_USED
|
Memoria de búfer de fotogramas libre (en MiB) |
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL
|
Número total de contadores de NVLink ancho de banda para todos los carriles |
DCGM_FI_DEV_VGPU_LICENSE_STATUS
|
Estado de las licencias de vGPU |
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS
|
Número de filas reasignadas por errores incorregibles |
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS
|
Número de filas reasignadas por errores corregibles |
DCGM_FI_DEV_ROW_REMAP_FAILURE
|
Si la reasignación de filas ha fallado |
Panel de métricas de EFA
Proporciona información visualizada de las métricas de Amazon Elastic Fabric Adapter (EFA) equipadas en instancias P recopiladas por el exportador de nodos de EFA
Tipos de métricas
-
Métricas de errores de EFA: muestran errores como errores de asignación, errores de comando y errores de mapas de memoria.
-
Tráfico de red de EFA: supervisa los bytes, paquetes y solicitudes de trabajo recibidos y transmitidos.
-
Rendimiento de EFA RDMA: analiza las operaciones de lectura y escritura de RDMA, incluidos los bytes transferidos y las tasas de error.
-
Vida útil de los puertos de EFA: muestra la vida útil de los puertos de EFA a lo largo del tiempo.
-
Paquetes keep-alive de EFA: realizan un seguimiento del número de paquetes keep-alive recibidos.
Lista de métricas
En la siguiente tabla, se muestra una lista de las métricas que proporcionan información sobre diversos aspectos del funcionamiento de EFA, incluidos errores, comandos completados, tráfico de red y utilización de los recursos.
Nombre de métrica | Descripción |
---|---|
node_amazonefa_info
|
Datos no numéricosfrom /sys/class/infiniband/, el valor es siempre 1. |
node_amazonefa_lifespan
|
Vida útil del puerto |
node_amazonefa_rdma_read_bytes
|
Número de bytes leídos con RDMA |
node_amazonefa_rdma_read_resp_bytes
|
Número de bytes de respuesta de lectura con RDMA |
node_amazonefa_rdma_read_wr_err
|
Número de errores de lectura/escritura con RDMA |
node_amazonefa_rdma_read_wrs
|
Número de rs de lectura con RDMA |
node_amazonefa_rdma_write_bytes
|
Número de bytes escritos con RDMA |
node_amazonefa_rdma_write_recv_bytes
|
Número de bytes leídos y recibidos con RDMA |
node_amazonefa_rdma_write_wr_err
|
Número de bytes escritos con error con RDMA |
node_amazonefa_rdma_write_wrs
|
Número de bytes escritos de wrs con RDMA |
node_amazonefa_recv_bytes
|
Número de bytes recibidos |
node_amazonefa_recv_wrs
|
Número de bytes recibidos de wrs |
node_amazonefa_rx_bytes
|
Número de bytes recibidos |
node_amazonefa_rx_drops
|
Número de paquetes descartados |
node_amazonefa_rx_pkts
|
Número de paquetes recibidos |
node_amazonefa_send_bytes
|
Número de bytes enviados |
node_amazonefa_send_wrs
|
Número de wrs enviados |
node_amazonefa_tx_bytes
|
Número de bytes transmitidos |
node_amazonefa_tx_pkts
|
Número de paquetes transmitidos |
FSx para el panel de métricas de Lustre
Proporciona información visualizada de las métricas del sistema de archivos Amazon FSx for Lustre recopiladas por Amazon. CloudWatch
nota
El panel de control de Grafana FSx for Lustre utiliza Amazon CloudWatch como fuente de datos, lo que difiere de los demás paneles que ha configurado para utilizar Amazon Managed Service for Prometheus. Para garantizar una supervisión y visualización precisas de las métricas relacionadas con su sistema de archivos de FSx for Lustre, configure el panel de control de FSx for Lustre para que utilice Amazon CloudWatch como fuente de datos, especificando la misma ubicación en la que Región de AWS se implementa su sistema de archivos de FSx for Lustre.
Tipos de métricas
-
DataReadBytes: el número de bytes para las operaciones de lectura del sistema de archivos.
-
DataWriteBytes: el número de bytes de las operaciones de escritura del sistema de archivos.
-
DataReadOperations: el número de operaciones de lectura.
-
DataWriteOperations: El número de operaciones de escritura.
-
MetadataOperations: El número de operaciones de metadatos.
-
FreeDataStorageCapacity: La cantidad de capacidad de almacenamiento disponible.