Collecter des métriques GPU NVIDIA

Vous pouvez utiliser l' CloudWatch agent pour collecter les métriques du GPU NVIDIA à partir de serveurs Linux. Pour configurer cela, ajoutez une nvidia_gpu section dans la metrics_collected section du fichier de configuration de l' CloudWatch agent. Pour de plus amples informations, veuillez consulter Section Linux.

En outre, un pilote NVIDIA doit être installé sur l'instance. Les pilotes NVIDIA sont préinstallés sur certaines Amazon Machine Images (AMIs). Sinon, vous pouvez installer le pilote manuellement. Pour plus d'informations, consultez Installer les pilotes NVIDIA sur des instances Linux.

Les métriques suivantes peuvent être collectées. Toutes ces métriques sont collectées sans aucun CloudWatch Unit, mais vous pouvez spécifier une unité pour chaque métrique en ajoutant un paramètre au fichier de configuration de l' CloudWatch agent. Pour de plus amples informations, veuillez consulter Section Linux.

Métrique	Nom de la métrique dans CloudWatch	Description
`utilization_gpu`	`nvidia_smi_utilization_gpu`	Pourcentage de temps sur la dernière période d'échantillonnage au cours de laquelle un ou plusieurs noyaux du GPU étaient en cours d'exécution.
`temperature_gpu`	`nvidia_smi_temperature_gpu`	Température centrale du GPU en degrés Celsius.
`power_draw`	`nvidia_smi_power_draw`	Dernière consommation d'énergie mesurée pour l'ensemble de la carte, en watts.
`utilization_memory`	`nvidia_smi_utilization_memory`	Pourcentage de temps sur la dernière période d'échantillonnage au cours de laquelle la mémoire globale (périphérique) était en cours de lecture ou d'écriture.
`fan_speed`	`nvidia_smi_fan_speed`	Pourcentage de la vitesse maximale du ventilateur auquel le ventilateur de l'appareil est censé fonctionner.
`memory_total`	`nvidia_smi_memory_total`	Mémoire totale déclarée, en Mo.
`memory_used`	`nvidia_smi_memory_used`	Mémoire utilisée, en Mo.
`memory_free`	`nvidia_smi_memory_free`	Mémoire libre, en Mo.
`pcie_link_gen_current`	`nvidia_smi_pcie_link_gen_current`	Génération de liens actuelle.
`pcie_link_width_current`	`nvidia_smi_pcie_link_width_current`	Largeur de liens actuelle.
`encoder_stats_session_count`	`nvidia_smi_encoder_stats_session_count`	Nombre actuel de sessions de l'encodeur.
`encoder_stats_average_fps`	`nvidia_smi_encoder_stats_average_fps`	Moyenne mobile des images d'encodage par seconde.
`encoder_stats_average_latency`	`nvidia_smi_encoder_stats_average_latency`	Moyenne mobile de la latence d'encodage en microsecondes.
`clocks_current_graphics`	`nvidia_smi_clocks_current_graphics`	Fréquence actuelle de l'horloge de graphiques (ombrage).
`clocks_current_sm`	`nvidia_smi_clocks_current_sm`	Fréquence actuelle de l'horloge multiprocesseur de streaming (SM).
`clocks_current_memory`	`nvidia_smi_clocks_current_memory`	Fréquence actuelle de l'horloge mémoire.
`clocks_current_video`	`nvidia_smi_clocks_current_video`	Fréquence actuelle des horloges vidéo (encodeur et décodeur).

Toutes ces mesures sont collectées avec les dimensions suivantes :

Dimension	Description
`index`	Identifiant unique du GPU sur ce serveur. Représente l'index de NVIDIA Management Library (NVML) (la bibliothèque de gestion NVIDIA) de l'appareil.
`name`	Type de GPU. Par exemple, `NVIDIA Tesla A100`
`arch`	L'architecture du serveur.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Collectez les statistiques des NVMe conducteurs Amazon EBS

Collectez les métriques des extensions de gestion Java (JMX)