clustermgtd clusterstatusmgtd computemgtd

AWS ParallelCluster 프로세스

이 섹션은 Slurm과 함께 배포되는 클러스터에 적용됩니다. 이 스케줄러와 함께 사용할 경우는 기본 작업 스케줄러와 AWS ParallelCluster 상호 작용하여 컴퓨팅 노드 프로비저닝 및 제거를 관리합니다.

기반 HPC 클러스터의 경우 AWS Batch에서 제공하는 기능을 AWS ParallelCluster 사용하여 컴퓨팅 노드 AWS Batch 를 관리합니다.

`clustermgtd`

클러스터 관리 데몬(clustermgtd)은 다음 작업을 수행합니다.

비활성 파티션 정리
용량 블록과 연결된 Slurm 예약 및 노드 관리(다음 섹션 참조)
정적 용량을 관리하여 항상 정상 상태인지 확인합니다.
스케줄러를 Amazon EC2와 동기화합니다.
분리된 인스턴스 정리
일시 중지 워크플로 외부에서 발생하는 Amazon EC2 종료 시 스케줄러 노드 상태 복원
비정상 Amazon EC2 인스턴스 관리(Amazon EC2 상태 확인에 실패한 인스턴스)
예약된 유지 관리 이벤트 관리
비정상 스케줄러 노드 관리(스케줄러 상태 확인에 실패한 노드)

용량 블록과 연결된 Slurm 예약 및 노드 관리

ParallelCluster는 온디맨드 용량 예약(ODCR) 및 기계 학습을 위한 용량 블록(CB)을 지원합니다. ODCR과 달리 CB는 향후 시작 시간이 있을 수 있으며 시간 제한이 있습니다.

clustermgtd는 루프에서 비정상 노드를 검색하고, 다운된 모든 Amazon EC2 인스턴스를 종료하고, 정적 노드인 경우 새 인스턴스로 교체합니다.

AWS ParallelCluster 는 용량 블록과 연결된 정적 노드를 다르게 관리합니다. CB가 아직 활성화되지 않은 경우에도 클러스터를 생성하고 CB가 활성화되면 인스턴스를 자동으로 시작합니다.

아직 활성화되지 않은 CBs와 연결된 컴퓨팅 리소스에 해당하는 Slurm 노드는 CB 시작 시간에 도달할 때까지 유지 관리 상태로 유지됩니다. 이러한 Slurm 노드는 Slurm 관리자 사용자와 연결된 예약/유지 관리 상태로 유지되므로 작업을 수락할 수 있지만 Slurm 예약이 제거될 때까지 작업은 보류 상태로 유지됩니다.

clustermgtd는 Slurm 예약을 자동으로 생성하거나 삭제합니다. 즉, CB 상태를 기반으로 관련 CB 노드를 유지 관리 상태로 전환합니다. CB가 활성화되면 Slurm 예약이 제거되고 노드가 시작되어 보류 중인 작업 또는 새 작업 제출에 사용할 수 있게 됩니다.

CB 종료 시간에 도달하면 노드가 예약/유지 관리 상태로 다시 이동합니다. CB가 더 이상 활성화되지 않고 인스턴스가 종료되면 새 대기열/컴퓨팅 리소스에 작업을 다시 제출/다시 대기열에 추가하는 것은 사용자의 몫입니다.

`clusterstatusmgtd`

클러스터 상태 관리 데몬(clusterstatusmgtd)은 컴퓨팅 플릿 상태 업데이트를 관리합니다. 매 분마다 DynamoDB 테이블에 저장된 플릿 상태를 가져오고 모든 STOP/START 요청을 관리합니다.

`computemgtd`

컴퓨팅 관리 데몬(computemgtd) 프로세스는 각 클러스터 컴퓨팅 노드에서 실행됩니다. 컴퓨팅 관리 대몬(daemon)은 5분마다 헤드 노드에 연결할 수 있고 정상 상태인지 확인합니다. 헤드 노드에 도달할 수 없거나 정상이 아닌 상태로 5분이 경과하면 컴퓨팅 노드가 종료됩니다.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

AWS ParallelCluster 작동 방식

AWS 에서 사용하는 서비스 AWS ParallelCluster