Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Referencia de métricas exportadas

Modo de enfoque
Referencia de métricas exportadas - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

En las siguientes secciones se presentan listas completas de métricas exportadas desde SageMaker HyperPod Amazon Managed Service for Prometheus tras la correcta configuración de la pila para garantizar AWS CloudFormation la observabilidad. SageMaker HyperPod Puede empezar a supervisar estas métricas visualizadas en los paneles de Amazon Managed Grafana.

Panel del exportador de Slurm

Proporciona información visualizada de los clústeres de Slurm en. SageMaker HyperPod

Tipos de métricas

  • Información general acerca del clúster: muestra el número total de nodos, trabajos y sus estados.

  • Métricas de trabajo: muestran los recuentos y estados de los trabajos a lo largo del tiempo.

  • Métricas de nodo: muestra los estados, la asignación y los recursos disponibles de los nodos.

  • Métricas de partición: supervisan métricas específicas de una partición, como el uso de la CPU, la memoria y la GPU.

  • Eficiencia del trabajo: calcula la eficiencia del trabajo en función de los recursos utilizados.

Lista de métricas

Nombre de métrica Descripción
slurm_job_count Número total de trabajos en el clúster de Slurm
slurm_job_state_count Recuento de trabajos en cada estado (p. ej., en ejecución, pendientes o completados)
slurm_node_count Número total de nodos en el clúster de Slurm
slurm_node_state_count Recuento de nodos en cada estado (p. ej., inactivos, asignados, mixtos)
slurm_partition_node_count Recuento de nodos en cada partición
slurm_partition_job_count Recuento de trabajos en cada partición
slurm_partition_alloc_cpus Número total de unidades asignadas en cada partición CPUs
slurm_partition_free_cpus Número total de unidades disponibles CPUs en cada partición
slurm_partition_alloc_memory Memoria total asignada en cada partición
slurm_partition_free_memory Memoria total disponible en cada partición
slurm_partition_alloc_gpus Total asignado GPUs en cada partición
slurm_partition_free_gpus Total disponible GPUs en cada partición

Panel del exportador de nodos

Proporciona información visualizada de las métricas del sistema recopiladas por el exportador de nodos de Prometheus desde los nodos del clúster. HyperPod

Tipos de métricas

  • Información general del sistema: muestra las cargas medias de la CPU y el uso de memoria.

  • Métricas de memoria: muestran el uso de la memoria, incluida la memoria total, la memoria libre y el espacio de intercambio.

  • Uso del disco: supervisa la utilización y la disponibilidad del espacio en disco.

  • Tráfico de red: muestra los bytes de red recibidos y transmitidos a lo largo del tiempo.

  • Métricas del sistema de archivos: analizan el uso y la disponibilidad del sistema de archivos.

  • Métricas de E/S de disco: muestran la actividad de lectura y escritura del disco.

Lista de métricas

Para obtener una lista completa de las métricas exportadas, consulte el exportador de nodos y los repositorios procfs. GitHub En la siguiente tabla, se muestra un subconjunto de métricas que proporciona información sobre la utilización de los recursos del sistema, como la carga de la CPU, el uso de la memoria, el espacio en disco y la actividad de la red.

Nombre de métrica Descripción
node_load1 Carga media en 1 minuto
node_load5 Carga media en 5 minutos
node_load15 Carga media en 15 minutos
node_memory_MemTotal Memoria total del sistema
node_memory_MemFree Memoria libre del sistema
node_memory_MemAvailable Memoria disponible para asignación a procesos
node_memory_Buffers Memoria utilizada por el kernel para el almacenamiento en el búfer
node_memory_Cached Memoria utilizada por el kernel para almacenar en caché los datos del sistema de archivos
node_memory_SwapTotal Espacio de intercambio total disponible
node_memory_SwapFree Espacio de intercambio libre
node_memory_SwapCached La memoria que ya se ha intercambiado antes se restaura, pero sigue en intercambio
node_filesystem_avail_bytes Espacio en disco disponible en bytes
node_filesystem_size_bytes Espacio total en disco en bytes
node_filesystem_free_bytes Espacio libre en disco en bytes
node_network_receive_bytes Bytes de red recibidos
node_network_transmit_bytes Bytes de red transmitidos
node_disk_read_bytes Bytes de disco leídos
node_disk_written_bytes Bytes de disco escritos

Panel del exportador de NVIDIA DCGM

Proporciona información visualizada de las métricas de la GPU de NVIDIA que recopila el exportador de NVIDIA DCGM.

Tipos de métricas

  • Información general de la GPU: muestra el uso de la GPU, las temperaturas, el consumo de energía y el uso de memoria.

  • Métricas de temperatura: muestra las temperaturas de la GPU a lo largo del tiempo.

  • Uso de energía: supervisa el consumo de energía de la GPU y las tendencias de uso de energía.

  • Utilización de memoria: analiza el uso de la memoria de la GPU, incluida la memoria utilizada, la memoria libre y la memoria total.

  • Velocidad del ventilador: muestra las velocidades y variaciones de los ventiladores de la GPU.

  • Errores de ECC: realiza un seguimiento de los errores de ECC y los errores pendientes de la memoria de la GPU.

Lista de métricas

En la siguiente tabla, se muestra una lista de las métricas que proporcionan información sobre el estado y el rendimiento de la GPU de NVIDIA, incluidas las frecuencias de reloj, las temperaturas, el uso de la energía, la utilización de la memoria, las velocidades de los ventiladores y las métricas de error.

Nombre de métrica Descripción
DCGM_FI_DEV_SM_CLOCK Frecuencia de reloj SM (pulgadas) MHz
DCGM_FI_DEV_MEM_CLOCK Frecuencia de reloj de memoria (pulgadas MHz)
DCGM_FI_DEV_MEMORY_TEMP Temperatura de la memoria (en °C)
DCGM_FI_DEV_GPU_TEMP Temperatura de la GPU (en °C)
DCGM_FI_DEV_POWER_USAGE Consumo de energía (en W)
DCGM_FI_DEV_TOTAL_ENERGY_CONSUMPTION Consumo total de energía desde el arranque (en mJ)
DCGM_FI_DEV_PCIE_REPLAY_COUNTER Número total de PCIe reintentos
DCGM_FI_DEV_MEM_COPY_UTIL Utilización de la memoria (en %)
DCGM_FI_DEV_ENC_UTIL Utilización del codificador (en %)
DCGM_FI_DEV_DEC_UTIL Utilización del decodificador (en %)
DCGM_FI_DEV_XID_ERRORS Valor del último error de XID detectado
DCGM_FI_DEV_FB_FREE Memoria de búfer de fotogramas libre (en MiB)
DCGM_FI_DEV_FB_USED Memoria de búfer de fotogramas libre (en MiB)
DCGM_FI_DEV_NVLINK_BANDWIDTH_TOTAL Número total de contadores de NVLink ancho de banda para todos los carriles
DCGM_FI_DEV_VGPU_LICENSE_STATUS Estado de las licencias de vGPU
DCGM_FI_DEV_UNCORRECTABLE_REMAPPED_ROWS Número de filas reasignadas por errores incorregibles
DCGM_FI_DEV_CORRECTABLE_REMAPPED_ROWS Número de filas reasignadas por errores corregibles
DCGM_FI_DEV_ROW_REMAP_FAILURE Si la reasignación de filas ha fallado

Panel de métricas de EFA

Proporciona información visualizada de las métricas de Amazon Elastic Fabric Adapter (EFA) equipadas en instancias P recopiladas por el exportador de nodos de EFA.

Tipos de métricas

  • Métricas de errores de EFA: muestran errores como errores de asignación, errores de comando y errores de mapas de memoria.

  • Tráfico de red de EFA: supervisa los bytes, paquetes y solicitudes de trabajo recibidos y transmitidos.

  • Rendimiento de EFA RDMA: analiza las operaciones de lectura y escritura de RDMA, incluidos los bytes transferidos y las tasas de error.

  • Vida útil de los puertos de EFA: muestra la vida útil de los puertos de EFA a lo largo del tiempo.

  • Paquetes keep-alive de EFA: realizan un seguimiento del número de paquetes keep-alive recibidos.

Lista de métricas

En la siguiente tabla, se muestra una lista de las métricas que proporcionan información sobre diversos aspectos del funcionamiento de EFA, incluidos errores, comandos completados, tráfico de red y utilización de los recursos.

Nombre de métrica Descripción
node_amazonefa_info Datos no numéricosfrom /sys/class/infiniband/, el valor es siempre 1.
node_amazonefa_lifespan Vida útil del puerto
node_amazonefa_rdma_read_bytes Número de bytes leídos con RDMA
node_amazonefa_rdma_read_resp_bytes Número de bytes de respuesta de lectura con RDMA
node_amazonefa_rdma_read_wr_err Número de errores de lectura/escritura con RDMA
node_amazonefa_rdma_read_wrs Número de rs de lectura con RDMA
node_amazonefa_rdma_write_bytes Número de bytes escritos con RDMA
node_amazonefa_rdma_write_recv_bytes Número de bytes leídos y recibidos con RDMA
node_amazonefa_rdma_write_wr_err Número de bytes escritos con error con RDMA
node_amazonefa_rdma_write_wrs Número de bytes escritos de wrs con RDMA
node_amazonefa_recv_bytes Número de bytes recibidos
node_amazonefa_recv_wrs Número de bytes recibidos de wrs
node_amazonefa_rx_bytes Número de bytes recibidos
node_amazonefa_rx_drops Número de paquetes descartados
node_amazonefa_rx_pkts Número de paquetes recibidos
node_amazonefa_send_bytes Número de bytes enviados
node_amazonefa_send_wrs Número de wrs enviados
node_amazonefa_tx_bytes Número de bytes transmitidos
node_amazonefa_tx_pkts Número de paquetes transmitidos

FSx para el panel de métricas de Lustre

Proporciona información visualizada de las métricas del sistema de archivos Amazon FSx for Lustre recopiladas por Amazon. CloudWatch

nota

El panel de control de Grafana FSx for Lustre utiliza Amazon CloudWatch como fuente de datos, lo que difiere de los demás paneles que ha configurado para utilizar Amazon Managed Service for Prometheus. Para garantizar una supervisión y visualización precisas de las métricas relacionadas con su sistema de archivos de FSx for Lustre, configure el panel de control de FSx for Lustre para que utilice Amazon CloudWatch como fuente de datos, especificando la misma ubicación en la que Región de AWS se implementa su sistema de archivos de FSx for Lustre.

Tipos de métricas

  • DataReadBytes: el número de bytes para las operaciones de lectura del sistema de archivos.

  • DataWriteBytes: el número de bytes de las operaciones de escritura del sistema de archivos.

  • DataReadOperations: el número de operaciones de lectura.

  • DataWriteOperations: El número de operaciones de escritura.

  • MetadataOperations: El número de operaciones de metadatos.

  • FreeDataStorageCapacity: La cantidad de capacidad de almacenamiento disponible.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.