컴퓨팅 노드 초기화 오류가 표시되는 경우 - AWS ParallelCluster

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

컴퓨팅 노드 초기화 오류가 표시되는 경우

clustermgtd.log에서 Node bootstrap error가 표시되는 경우

이 문제는 컴퓨팅 노드의 부트스트랩 실패와 관련이 있습니다. 클러스터 보호 모드 문제를 디버깅하는 방법에 대한 자세한 내용은 보호 모드를 디버깅하는 방법 항목을 참조하세요.

온디맨드 용량 예약(ODCR) 또는 영역별 예약 인스턴스를 구성했습니다.

P4d, P4de, Trn (Trn) 과 같이 여러 네트워크 인터페이스가 있는 인스턴스를 포함하는 ODCR AWS

클러스터 구성 파일에서 HeadNode가 퍼블릭 서브넷에 있고 컴퓨팅 노드가 프라이빗 서브넷에 있는지 확인합니다.

ODCR이 대상으로 지정된 ODCR인 경우

ODCR(온디맨드 용량 예약)로 인스턴스 시작에 나와 있는 지침을 따라 이미 /opt/slurm/etc/pcluster/run_instances_overrides.json를 설치했는데도 Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.가 표시되는 경우

대상 ODCR과 함께 AWS ParallelCluster 버전 3.1.1 ~ 3.2.1을 사용하고 실행 인스턴스 재정의 JSON 파일도 사용하는 경우 JSON 파일 형식이 올바르지 않을 수 있습니다. clustermgtd.log에서 다음과 같은 오류가 발생할 수 있습니다.

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.

다음을 실행하여 JSON 파일 형식이 올바른지 확인합니다.

$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq

클러스터 생성 실패 시 clustermgtd.log에서 또는 작업 실행 실패 시 slurm_resume.log에서 Found RunInstances parameters override.이 표시되는 경우

실행 인스턴스 재정의 JSON 파일을 사용하는 경우 /opt/slurm/etc/pcluster/run_instances_overrides.json 파일에서 대기열 이름과 컴퓨팅 리소스 이름을 올바르게 설정했는지 확인하세요.

작업 실행 실패 시 slurm_resume.log에서 또는 클러스터 실행 실패 시 clustermgtd.log에서 An error occurred (InsufficientInstanceCapacity)이 표시되는 경우

PG-ODCR(배치 그룹 ODCR) 사용

연결된 배치 그룹이 있는 ODCR을 만들 때는 구성 파일에 동일한 배치 그룹 이름을 사용해야 합니다. 클러스터 구성에서 대응하는 배치 그룹 이름을 설정합니다.

영역 예약 인스턴스 사용

클러스터 구성에서 PlacementGroup/Enabledtrue로와 함께 영역 예약 인스턴스를 사용하는 경우 다음과 같은 오류가 표시될 수 있습니다.

We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.

영역 예약 인스턴스가 동일한 UC(또는 스파인)에 배치되지 않아 이러한 현상이 나타날 수 있으며, 배치 그룹을 사용할 때 용량 부족 오류(ICE)가 발생할 수 있습니다. 클러스터 구성에서 PlacementGroup 그룹 설정을 비활성화하여 클러스터가 인스턴스를 할당할 수 있는지 확인하면 이 경우를 확인할 수 있습니다.

작업 실행 실패 시 slurm_resume.log에서 또는 클러스터 실행 실패 시 clustermgtd.log에서 An error occurred (VcpuLimitExceeded)이 표시되는 경우

사용 중인 특정 EC2 인스턴스 유형에 대한 계정의 vCPU 한도를 확인하세요. vCPU가 0개 또는 요청한 것보다 더 적으면 한도 증가를 요청하세요. 현재 한도를 확인하고 새 한도를 요청하는 방법에 대한 자세한 내용은 Amazon EC2 사용 설명서의 Amazon EC2 서비스 할당량을 참조하십시오.

작업 실행 실패 시 slurm_resume.log에서 또는 클러스터 실행 실패 시 clustermgtd.log에서 An error occurred (InsufficientInstanceCapacity)이 표시되는 경우

용량 부족 문제가 발생했습니다. https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/를 따라서 문제를 해결하세요.

노드가 Reason (Code:InsufficientInstanceCapacity)...으로 DOWN 상태로 표시되는 경우

용량 부족 문제가 발생했습니다. https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/를 따라서 문제를 해결하세요. AWS ParallelCluster의 빠른 용량 부족 장애 조치 모드에 대한 자세한 내용은 을 참조하십시오. Slurm 클러스터 빠른 용량 부족 장애 조치

slurm_resume.log에서 cannot change locale (en_US.utf-8) because it has an invalid name가 표시되는 경우

yum 설치 프로세스에 실패하여 로케일 설정이 일관되지 않은 상태로 남아 있는 경우 이 문제가 발생할 수 있습니다. 예를 들어, 사용자가 설치 프로세스를 종료할 때 이러한 문제가 발생할 수 있습니다.

원인을 확인하려면 다음 작업을 수행합니다.
  • su - pcluster-admin를 실행합니다.

    쉘에 cannot change locale...no such file or directory과 같은 오류가 표시됩니다.

  • localedef --list를 실행합니다.

    빈 목록을 반환하거나 기본 로케일을 포함하지 않습니다.

  • yum historyyum history info #ID를 사용하여 마지막 yum 명령을 확인합니다. 마지막 ID에 Return-Code: Success가 있나요?

    마지막 ID에 Return-Code: Success가 없으면 설치 후 스크립트가 성공적으로 실행되지 않았을 수 있습니다.

문제를 해결하려면 yum reinstall glibc-all-langpacks를 사용하여 로케일을 다시 빌드해 보세요. 다시 빌드한 후에 문제가 해결됐으면 su - pcluster-admin가 오류나 경고를 표시하지 않습니다.

이전 시나리오 중 어느 것도 제 상황에 적용되지 않습니다.

컴퓨팅 노드 초기화 문제를 해결하려면 노드 초기화 문제 해결을 참조하세요.

현재 AWS ParallelCluster 사용 중인 시나리오가 GitHub 알려진 문제에 포함되어 있는지 확인해 보십시오. GitHub

추가 지원이 필요하면 추가 지원을 참조하세요.