기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Slurm 버전 3.7.x의 동적 노드 할당 전략
ParallelCluster는 두 가지 유형의 동적 노드 할당 전략을 사용하여 클러스터를 규모 조정합니다.
-
사용 가능한 요청 노드 정보를 기반으로 한 할당:
-
모든 노드 재개 또는 노드 목록 규모 조정:
Slurm의
ResumeProgram
이 실행될 때 ParallelCluster는 Slurm의 요청된 노드 목록 이름만을 기반으로 한 클러스터를 스케일 업합니다. 노드 이름으로만 노드에 컴퓨팅 리소스를 할당합니다. 노드 이름 목록은 여러 작업에 걸쳐 있을 수 있습니다. -
직무 수준 재개 또는 직무 수준 규모 조정:
ParallelCluster는 각 작업의 요구 사항, 작업에 할당된 현재 노드 수, 재개해야 하는 노드에 따라 클러스터를 스케일 업합니다. ParallelCluster는
SLURM_RESUME_FILE
환경 변수에서 이 정보를 가져옵니다.
-
-
Amazon EC2 출시 전략을 사용한 할당:
-
최선의 규모 조정:
ParallelCluster는 최소 목표 용량이 1인 Amazon EC2 시작 인스턴스 API 직접 호출을 사용하여 클러스터를 스케일 업하여 요청된 노드를 지원하는 데 필요한 모든 인스턴스는 아니지만 일부 인스턴스를 시작합니다.
-
전부 또는 전무 규모 조정:
ParallelCluster는 요청된 노드를 지원하는 데 필요한 모든 인스턴스가 시작된 경우에만 성공하는 Amazon EC2 시작 인스턴스 API 직접 호출을 사용하여 클러스터를 스케일 업합니다. 이 경우 요청된 총 용량과 동일한 최소 목표 용량을 사용하여 Amazon EC2 시작 인스턴스 API를 직접적으로 호출합니다.
-
기본적으로, ParallelCluster는 요청된 노드를 지원하는 데 필요한 모든 인스턴스는 아니지만 일부 인스턴스를 시작하기 위해 best-effort Amazon EC2 시작 전략과 함께 node-list 규모 조정을 사용합니다. 제출된 워크로드를 처리하기 위해 최대한 많은 용량을 프로비저닝하려고 합니다.
ParallelCluster 버전 3.7.0부터 ParallelCluster는 단독 모드로 제출된 작업에 대해 all-or-nothing EC2 시작 전략을 적용한 작업 수준 규모 조정을 사용합니다. 단독 모드에서 작업을 제출하면 작업은 할당된 노드에 독점적으로 액세스할 수 있습니다. 자세한 내용은 Slurm 설명서의 단독
단독 모드에서 작업을 제출하려면:
-
클러스터에 Slurm 작업을 제출할 때 단독 플래그를 전달하세요. 예:
sbatch ... --exclusive
.OR
-
JobExclusiveAllocation이
true
로 설정된 상태로 구성된 클러스터 대기열에 작업을 제출합니다.
단독 모드에서 작업을 제출하는 경우:
-
ParallelCluster는 현재 최대 500개의 노드를 포함하도록 시작 요청을 일괄 처리합니다. 작업이 500개 이상의 노드를 요청하는 경우 ParallelCluster는 각 500개 노드 집합에 대해 all-or-nothing 시작 요청을 하고 나머지 노드에 대해서는 추가 시작 요청을 합니다.
-
노드 할당이 단일 컴퓨팅 리소스에 있는 경우 ParallelCluster는 각 500개 노드 집합에 대해 all-or-nothing 시작 요청을 보내고 나머지 노드에 대해서는 추가 시작 요청을 합니다. 시작 요청이 실패하면 ParallelCluster는 모든 시작 요청에서 생성된 미사용 용량을 종료됩니다.
-
노드 할당이 여러 컴퓨팅 리소스에 걸친 경우, ParallelCluster는 각 컴퓨팅 리소스에 대해 all-or-nothing 시작 요청을 해야 합니다. 이러한 요청도 일괄 처리됩니다. 컴퓨팅 리소스 중 하나에 대한 시작 요청이 실패하면 ParallelCluster는 모든 컴퓨팅 리소스 시작 요청에서 생성된 미사용 용량을 종료합니다.
알려진 제한 사항을 적용한 전부 또는 전무 시작 전략 을 사용한 직무 수준 규모 조정:
-
단일 인스턴스 유형의 컴퓨팅 리소스, 여러 가용 영역에 걸친 대기열에 작업을 제출하면 단일 가용 영역에서 모든 용량을 제공할 수 있는 경우에만 전부 또는 전무 EC2 시작 API 직접 호출이 성공합니다.
-
단일 가용 영역이 있는 대기열에 있는 여러 인스턴스 유형이 있는 컴퓨팅 리소스에서 작업을 제출하면 단일 인스턴스 유형에서 모든 용량을 제공할 수 있는 경우에만 all-or-nothing Amazon EC2 시작 API 직접 호출이 성공합니다.
-
여러 가용 영역에 걸친 대기열에서 여러 인스턴스 유형이 있는 컴퓨팅 리소스에 작업을 제출하면 all-or-nothing Amazon EC2 시작 API 직접 호출은 지원되지 않으며, ParallelCluster는 대신 best-effort 규모 조정을 수행합니다.