Allarmi cluster

Il monitoraggio dello stato del cluster è essenziale per garantire prestazioni ottimali. AWS ParallelCluster consente di monitorare più allarmi CloudWatch basati sul nodo principale del cluster.

Questa sezione fornisce dettagli per ogni tipo di allarme del cluster Head Node, comprese le convenzioni di denominazione, le condizioni specifiche che attivano gli allarmi e i passaggi suggeriti per la risoluzione dei problemi.

La convenzione di denominazione per gli allarmi del cluster è, ad es. CLUSTER_NAME-COMPONENT-METRIC mycluster-HeadNode-Cpu

CLUSTER_NAME-HeadNode: segnala lo stato generale del nodo principale. È rosso se almeno uno degli allarmi seguenti lo è.
CLUSTER_NAME-HeadNode-Health: rosso se c'è almeno un errore di Amazon EC2 Health Check. In caso di allarme, ti suggeriamo di dare un'occhiata a Risoluzione dei problemi con controlli di stato non riusciti.
CLUSTER_NAME-HeadNode-Cpu: rosso se l'utilizzo della CPU è superiore al 90%. In caso di allarme, controlla i processi che consumano maggiormente la CPU. ps -aux --sort=-%cpu | head -n 10
CLUSTER_NAME-HeadNode-Mem: rosso se l'utilizzo della memoria è superiore al 90%. In caso di allarme, controlla i processi che consumano maggiormente la memoria. ps -aux --sort=-%mem | head -n 10
CLUSTER_NAME-HeadNode-Disk: rosso se lo spazio occupato su disco è superiore al 90% sul percorso /. In caso di allarme, controlla le cartelle che occupano la maggior parte dello spazio condu -h --max-depth=2 / 2> /dev/null | sort -hr.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Visualizzazione degli errori con la configurazione personalizzata Slurm

AWS ParallelCluster politica di supporto