클러스터 알람 - AWS ParallelCluster

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

클러스터 알람

최적의 성능을 보장하려면 클러스터 상태 모니터링이 필수적입니다. AWS ParallelCluster 클러스터 헤드 노드에 대한 여러 CloudWatch 기반 경보를 모니터링할 수 있습니다.

이 섹션에서는 명명 규칙, 경보를 트리거하는 특정 조건, 제안된 문제 해결 단계를 포함하여 각 유형의 헤드 노드 클러스터 경보에 대한 세부 정보를 제공합니다.

클러스터 경보의 명명 규칙은 예를 들어 다음과 같습니다. CLUSTER_NAME-COMPONENT-METRIC mycluster-HeadNode-Cpu

  • CLUSTER_NAME-HeadNode: 헤드 노드의 전체 상태를 나타냅니다. 아래 경보 중 하나 이상이 다음과 같으면 빨간색입니다.

  • CLUSTER_NAME-HeadNode-Health: EC2 Health Check 장애가 하나 이상 있는 경우 빨간색입니다. 경보가 발생하는 경우 상태 확인에 실패한 인스턴스 문제 해결을 살펴보는 것이 좋습니다.

  • CLUSTER_NAME-HeadNode-Cpu: CPU 사용률이 90% 이상이면 빨간색입니다. 알람이 발생하는 경우 CPU를 가장 많이 소비하는 프로세스를 확인하세요ps -aux --sort=-%cpu | head -n 10.

  • CLUSTER_NAME-HeadNode-Mem: 메모리 사용률이 90% 이상이면 빨간색입니다. 알람이 발생하는 경우 메모리를 가장 많이 소비하는 프로세스를 확인하세요ps -aux --sort=-%mem | head -n 10.

  • CLUSTER_NAME-HeadNode-Disk: path /에서 디스크 점유 공간이 90% 를 초과하면 빨간색입니다. 알람이 발생하는 경우, 대부분의 공간을 차지하는 폴더를 확인하세요. du -h --max-depth=2 / 2> /dev/null | sort -hr