Allarmi cluster - AWS ParallelCluster

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Allarmi cluster

Il monitoraggio dello stato del cluster è essenziale per garantire prestazioni ottimali. AWS ParallelCluster consente di monitorare più allarmi CloudWatch basati sul nodo principale del cluster.

Questa sezione fornisce dettagli per ogni tipo di allarme del cluster Head Node, comprese le convenzioni di denominazione, le condizioni specifiche che attivano gli allarmi e i passaggi suggeriti per la risoluzione dei problemi.

La convenzione di denominazione per gli allarmi del cluster è, ad es. CLUSTER_NAME-COMPONENT-METRIC mycluster-HeadNode-Cpu

  • CLUSTER_NAME-HeadNode: segnala lo stato generale del nodo principale. È rosso se almeno uno degli allarmi seguenti lo è.

  • CLUSTER_NAME-HeadNode-Health: rosso se si verifica almeno un errore nell'EC2 Health Check. In caso di allarme, suggeriamo di dare un'occhiata a Risoluzione dei problemi relativi ai controlli di stato non riusciti.

  • CLUSTER_NAME-HeadNode-Cpu: rosso se l'utilizzo della CPU è superiore al 90%. In caso di allarme, controlla i processi che consumano maggiormente la CPU. ps -aux --sort=-%cpu | head -n 10

  • CLUSTER_NAME-HeadNode-Mem: rosso se l'utilizzo della memoria è superiore al 90%. In caso di allarme, controlla i processi che consumano maggiormente la memoria. ps -aux --sort=-%mem | head -n 10

  • CLUSTER_NAME-HeadNode-Disk: rosso se lo spazio occupato su disco è superiore al 90% sul percorso /. In caso di allarme, controlla le cartelle che occupano la maggior parte dello spazio condu -h --max-depth=2 / 2> /dev/null | sort -hr.