쿠키 기본 설정 선택

당사는 사이트와 서비스를 제공하는 데 필요한 필수 쿠키 및 유사한 도구를 사용합니다. 고객이 사이트를 어떻게 사용하는지 파악하고 개선할 수 있도록 성능 쿠키를 사용해 익명의 통계를 수집합니다. 필수 쿠키는 비활성화할 수 없지만 '사용자 지정' 또는 ‘거부’를 클릭하여 성능 쿠키를 거부할 수 있습니다.

사용자가 동의하는 경우 AWS와 승인된 제3자도 쿠키를 사용하여 유용한 사이트 기능을 제공하고, 사용자의 기본 설정을 기억하고, 관련 광고를 비롯한 관련 콘텐츠를 표시합니다. 필수가 아닌 모든 쿠키를 수락하거나 거부하려면 ‘수락’ 또는 ‘거부’를 클릭하세요. 더 자세한 내용을 선택하려면 ‘사용자 정의’를 클릭하세요.

Slurm 버전 3.7.x의 동적 노드 할당 전략 - AWS ParallelCluster

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Slurm 버전 3.7.x의 동적 노드 할당 전략

ParallelCluster는 두 가지 유형의 동적 노드 할당 전략을 사용하여 클러스터를 규모 조정합니다.

  • 사용 가능한 요청 노드 정보를 기반으로 한 할당:
    • 모든 노드 재개 또는 노드 목록 규모 조정:

      Slurm의 ResumeProgram이 실행될 때 ParallelCluster는 Slurm의 요청된 노드 목록 이름만을 기반으로 한 클러스터를 스케일 업합니다. 노드 이름으로만 노드에 컴퓨팅 리소스를 할당합니다. 노드 이름 목록은 여러 작업에 걸쳐 있을 수 있습니다.

    • 직무 수준 재개 또는 직무 수준 규모 조정:

      ParallelCluster는 각 작업의 요구 사항, 작업에 할당된 현재 노드 수, 재개해야 하는 노드에 따라 클러스터를 스케일 업합니다. ParallelCluster는 SLURM_RESUME_FILE 환경 변수에서 이 정보를 가져옵니다.

  • Amazon EC2 출시 전략을 사용한 할당:
    • 최선의 규모 조정:

      ParallelCluster는 최소 목표 용량이 1인 Amazon EC2 시작 인스턴스 API 직접 호출을 사용하여 클러스터를 스케일 업하여 요청된 노드를 지원하는 데 필요한 모든 인스턴스는 아니지만 일부 인스턴스를 시작합니다.

    • 전부 또는 전무 규모 조정:

      ParallelCluster는 요청된 노드를 지원하는 데 필요한 모든 인스턴스가 시작된 경우에만 성공하는 Amazon EC2 시작 인스턴스 API 직접 호출을 사용하여 클러스터를 스케일 업합니다. 이 경우 요청된 총 용량과 동일한 최소 목표 용량을 사용하여 Amazon EC2 시작 인스턴스 API를 직접적으로 호출합니다.

기본적으로, ParallelCluster는 요청된 노드를 지원하는 데 필요한 모든 인스턴스는 아니지만 일부 인스턴스를 시작하기 위해 best-effort Amazon EC2 시작 전략과 함께 node-list 규모 조정을 사용합니다. 제출된 워크로드를 처리하기 위해 최대한 많은 용량을 프로비저닝하려고 합니다.

ParallelCluster 버전 3.7.0부터 ParallelCluster는 단독 모드로 제출된 작업에 대해 all-or-nothing EC2 시작 전략을 적용한 작업 수준 규모 조정을 사용합니다. 단독 모드에서 작업을 제출하면 작업은 할당된 노드에 독점적으로 액세스할 수 있습니다. 자세한 내용은 Slurm 설명서의 단독을 참조하세요.

단독 모드에서 작업을 제출하려면:

  • 클러스터에 Slurm 작업을 제출할 때 단독 플래그를 전달하세요. 예: sbatch ... --exclusive.

    OR

  • JobExclusiveAllocationtrue로 설정된 상태로 구성된 클러스터 대기열에 작업을 제출합니다.

단독 모드에서 작업을 제출하는 경우:

  • ParallelCluster는 현재 최대 500개의 노드를 포함하도록 시작 요청을 일괄 처리합니다. 작업이 500개 이상의 노드를 요청하는 경우 ParallelCluster는 각 500개 노드 집합에 대해 all-or-nothing 시작 요청을 하고 나머지 노드에 대해서는 추가 시작 요청을 합니다.

  • 노드 할당이 단일 컴퓨팅 리소스에 있는 경우 ParallelCluster는 각 500개 노드 집합에 대해 all-or-nothing 시작 요청을 보내고 나머지 노드에 대해서는 추가 시작 요청을 합니다. 시작 요청이 실패하면 ParallelCluster는 모든 시작 요청에서 생성된 미사용 용량을 종료됩니다.

  • 노드 할당이 여러 컴퓨팅 리소스에 걸친 경우, ParallelCluster는 각 컴퓨팅 리소스에 대해 all-or-nothing 시작 요청을 해야 합니다. 이러한 요청도 일괄 처리됩니다. 컴퓨팅 리소스 중 하나에 대한 시작 요청이 실패하면 ParallelCluster는 모든 컴퓨팅 리소스 시작 요청에서 생성된 미사용 용량을 종료합니다.

알려진 제한 사항을 적용한 전부 또는 전무 시작 전략 을 사용한 직무 수준 규모 조정:

  • 단일 인스턴스 유형의 컴퓨팅 리소스, 여러 가용 영역에 걸친 대기열에 작업을 제출하면 단일 가용 영역에서 모든 용량을 제공할 수 있는 경우에만 전부 또는 전무 EC2 시작 API 직접 호출이 성공합니다.

  • 단일 가용 영역이 있는 대기열에 있는 여러 인스턴스 유형이 있는 컴퓨팅 리소스에서 작업을 제출하면 단일 인스턴스 유형에서 모든 용량을 제공할 수 있는 경우에만 all-or-nothing Amazon EC2 시작 API 직접 호출이 성공합니다.

  • 여러 가용 영역에 걸친 대기열에서 여러 인스턴스 유형이 있는 컴퓨팅 리소스에 작업을 제출하면 all-or-nothing Amazon EC2 시작 API 직접 호출은 지원되지 않으며, ParallelCluster는 대신 best-effort 규모 조정을 수행합니다.

프라이버시사이트 이용 약관쿠키 기본 설정
© 2025, Amazon Web Services, Inc. 또는 계열사. All rights reserved.