Alarmes de cluster - AWS ParallelCluster

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Alarmes de cluster

O monitoramento da integridade do cluster é essencial para garantir o desempenho ideal. AWS ParallelCluster permite monitorar vários alarmes CloudWatch baseados no nó principal do cluster.

Esta seção fornece detalhes para cada tipo de alarme do cluster Head Node, incluindo suas convenções de nomenclatura, condições específicas que acionam alarmes e etapas de solução de problemas sugeridas.

A convenção de nomenclatura para alarmes de cluster éCLUSTER_NAME-COMPONENT-METRIC, por exemplo. mycluster-HeadNode-Cpu

  • CLUSTER_NAME-HeadNode: sinaliza o status geral do nódulo principal. É vermelho se pelo menos um dos alarmes abaixo estiver.

  • CLUSTER_NAME-HeadNode-Health: vermelho se houver pelo menos uma falha no Amazon EC2 Health Check. Em caso de alarme, sugerimos que você dê uma olhada em Solucionar problemas de instâncias com falhas nas verificações de status.

  • CLUSTER_NAME-HeadNode-Cpu: vermelho se a utilização da CPU for maior que 90%. Em caso de alarme, verifique os processos que estão consumindo mais a CPU comps -aux --sort=-%cpu | head -n 10.

  • CLUSTER_NAME-HeadNode-Mem: vermelho se a utilização da memória for maior que 90%. Em caso de alarme, verifique os processos que estão consumindo mais memória comps -aux --sort=-%mem | head -n 10.

  • CLUSTER_NAME-HeadNode-Disk: vermelho se o espaço em disco ocupado for maior que 90% no caminho /. Em caso de alarme, verifique as pastas que consomem a maior parte do espaço comdu -h --max-depth=2 / 2> /dev/null | sort -hr.