AWS ParallelCluster 프로세스 - AWS ParallelCluster

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS ParallelCluster 프로세스

이 섹션은 Slurm과 함께 배포되는 클러스터에 적용됩니다. 이 스케줄러와 함께 사용하면 기본 작업 스케줄러와 상호 작용하여 컴퓨팅 노드 프로비저닝 및 제거를 AWS ParallelCluster 관리합니다.

를 기반으로 하는 HPC 클러스터의 AWS Batch경우 컴퓨팅 AWS ParallelCluster 노드 관리를 위해 에서 제공하는 기능을 사용합니다. AWS Batch

clustermgtd

클러스터 관리 대몬(daemon)은 다음 작업을 수행합니다.

  • 비활성 파티션 정리

  • 용량 블록과 관련된 Slurm 예약 및 노드 관리 (다음 섹션 참조)

  • 정적 용량 관리: 정적 용량이 항상 정상 상태인지 확인하세요.

  • 스케줄러를 Amazon EC2와 동기화합니다.

  • 분리된 인스턴스 정리

  • 일시 중지 워크플로 외부에서 발생하는 Amazon EC2 종료 시 스케줄러 노드 상태 복원

  • 비정상 Amazon EC2 인스턴스 관리(Amazon EC2 상태 확인 실패)

  • 정기 유지 관리 이벤트 관리

  • 비정상 스케줄러 노드 관리(스케줄러 상태 점검 실패)

용량 블록과 관련된 Slurm 예약 및 노드 관리

ParallelCluster 온디맨드 용량 예약 (ODCR) 및 기계 학습용 용량 블록 (CB) 을 지원합니다. ODCR과 달리 CB는 향후 시작 시간을 가질 수 있으며 기한이 정해져 있습니다.

Clustermgtd는 루프에서 비정상 노드를 검색하여 다운된 모든 Amazon EC2 인스턴스를 종료하고 정적 노드인 경우 새 인스턴스로 교체합니다.

ParallelCluster 용량 블록과 관련된 정적 노드를 다르게 관리합니다. AWS ParallelCluster CB가 아직 활성화되지 않은 경우에도 클러스터를 생성하고, CB가 활성화되면 인스턴스가 자동으로 시작됩니다.

아직 활성화되지 않은 CB와 관련된 컴퓨팅 리소스에 해당하는 Slurm 노드는 CB 시작 시간에 도달할 때까지 유지 관리 상태로 유지됩니다. Slurm노드는 Slurm 관리자 사용자와 연결된 예약/유지 관리 상태로 유지되므로 작업은 수락할 수 있지만 예약이 제거될 때까지 작업은 보류 상태로 유지됩니다. Slurm

Clustermgtd는 Slurm 예약을 자동으로 생성/삭제하여 CB 상태에 따라 관련 CB 노드를 유지 관리 상태로 전환합니다. CB가 활성화되면 Slurm 예약이 제거되고 노드가 시작되며 보류 중인 작업이나 새 작업 제출에 사용할 수 있게 됩니다.

CB 종료 시간에 도달하면 노드는 예약/유지 관리 상태로 다시 이동합니다. CB가 더 이상 활성화되지 않고 인스턴스가 종료된 경우 새 대기열/컴퓨팅 리소스에 작업을 다시 제출하거나 다시 등록하는 것은 사용자의 몫입니다.

clusterstatusmgtd

클러스터 상태 관리 대몬(daemon)은 컴퓨팅 플릿 상태 업데이트를 관리합니다. 매 분마다 DynamoDB 테이블에 저장된 플릿 상태를 가져오고 모든 STOP/START 요청을 관리합니다.

computemgtd

컴퓨팅 관리 대몬(daemon)(computemgtd) 프로세스는 각 클러스터 컴퓨팅 노드에서 실행됩니다. 컴퓨팅 관리 대몬(daemon)은 5분마다 헤드 노드에 연결할 수 있고 정상 상태인지 확인합니다. 헤드 노드에 도달할 수 없거나 정상이 아닌 상태로 5분이 경과하면 컴퓨팅 노드가 종료됩니다.