기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
다중 대기열 구성
AWS ParallelCluster 버전 3에서는를 Scheduler로 설정하고 구성 파일SlurmQueues에서에 대해 둘 이상의 대기열을 slurm
지정하여 여러 대기열을 구성할 수 있습니다. 이 모드에서는 구성 파일의 ComputeResources 섹션에 지정된 컴퓨팅 노드에 여러 인스턴스 유형이 공존합니다. 인스턴스 유형이 다른 ComputeResources은 SlurmQueues의 필요에 따라 스케일 업 또는 스케일 다운될 수 있습니다.
워크로드가 동일한 기본 인프라 및 리소스(예: 공유 스토리지, 네트워킹 또는 로그인 노드)를 공유하는 경우 단일 클러스터 내의 여러 대기열이 일반적으로 여러 클러스터보다 선호됩니다. 워크로드의 컴퓨팅, 스토리지 및 네트워킹 요구 사항이 유사한 경우 단일 클러스터 내에서 여러 대기열을 사용하는 것이 리소스 공유를 허용하고 불필요한 중복을 방지하기 때문에 더 효율적입니다. 이 접근 방식은 관리를 간소화하고 오버헤드를 줄이는 동시에 효율적인 작업 예약 및 리소스 할당을 허용합니다. 반면 워크로드 간에 강력한 보안, 데이터 또는 운영 격리 요구 사항이 있는 경우 여러 클러스터를 사용해야 합니다. 예를 들어 서로 다른 일정, 업데이트 주기 또는 액세스 정책으로 워크로드를 독립적으로 관리하고 운영해야 하는 경우 여러 클러스터가 더 적합합니다.
리소스 | 할당량 |
---|---|
클러스터당 50개의 대기열 |
|
대기열당 50개의 컴퓨팅 리소스 클러스터당 50개의 컴퓨팅 리소스 |
노드 수
ComputeResources 대기열의 각 컴퓨팅 리소스에는 고유한 Name, InstanceType, MinCount 및 MaxCount가 있어야 합니다. MinCount 및 MaxCount는 ComputeResources 대기열의 컴퓨팅 리소스 인스턴스 범위를 정의하는 기본값이 있어야 합니다. MinCount 및 MaxCount에 대해 고유한 값을 지정할 수도 있습니다. ComputeResources의 각 컴퓨팅 리소스는 1에서 MinCount 값 사이의 번호가 매겨진 정적 노드와 MinCount 값에서 MaxCount 값 사이의 번호가 매겨진 동적 노드로 구성됩니다.
구성의 예제
다음은 클러스터 구성 파일의 일정 예약 섹션 예제입니다. 이 구성에는 이름이 queue1
및 queue2
인 대기열이 두 개 있으며 각 대기열에는 MaxCount가 지정된 ComputeResources가 있습니다.
Scheduling: Scheduler: slurm SlurmQueues: - Name: queue1 ComputeResources: - InstanceType: c5.xlarge MaxCount: 5 Name: c5xlarge - InstanceType: c4.xlarge MaxCount: 5 Name: c4xlarge - Name: queue2 ComputeResources: - InstanceType: c5.xlarge MaxCount: 5 Name: c5xlarge
Hostnames
컴퓨팅 플릿으로 시작되는 인스턴스는 동적으로 할당됩니다. 호스트 이름는 각 노드에 대해 생성됩니다. 기본적으로 AWS ParallelCluster 는 다음 형식의 호스트 이름을 사용합니다.
$HOSTNAME=$QUEUE-$STATDYN-$COMPUTE_RESOURCE-$NODENUM
-
$QUEUE
은 대기열의 이름입니다. 예를 들어 SlurmQueues 섹션에 “queue-name
”으로 설정된 Name 항목이 있는 경우 “$QUEUE
”는 “queue-name
”입니다. -
$STATDYN
은 정적 노드에는st
또는 동적 노드에는dy
입니다. -
$COMPUTE_RESOURCE
은 이 노드에 대응하는 ComputeResources 컴퓨팅 리소스의 Name입니다. -
$NODENUM
은 노드의 번호입니다.$NODENUM
은 정적 노드의 경우 1과 MinCount의 값 사이, 동적 노드의 경우 1과 MaxCount~MinCount 사이입니다.
위의 예제 구성 파일에서 queue1
와 컴퓨팅 리소스 c5xlarge
의 특정 노드는 호스트 이름 queue1-dy-c5xlarge-1
을 가집니다.
호스트 이름과 FQDN(정규화된 도메인 이름)은 모두 Amazon Route 53 호스팅 영역을 사용하여 생성됩니다. FQDN은 $HOSTNAME.$CLUSTERNAME.pcluster
입니다. 여기서 $CLUSTERNAME
는 클러스터의 이름입니다.
Slurm 노드 이름에도 동일한 형식이 사용됩니다.
사용자는에서 사용하는 기본 호스트 이름 형식 대신 컴퓨팅 노드에 전원을 공급하는 인스턴스의 기본 Amazon EC2 호스트 이름을 사용하도록 선택할 수 있습니다 AWS ParallelCluster. UseEc2Hostnames 파라미터를 true로 설정하면 됩니다. 그러나 Slurm 노드 이름은 기본 AWS ParallelCluster 형식을 계속 사용합니다.