클러스터를 생성하려는 경우 - AWS ParallelCluster
failureCode가 OnNodeConfiguredExecutionFailure일 시failureCode가 OnNodeConfiguredDownloadFailure일 시failureCode가 OnNodeConfiguredFailure일 시failureCode가 OnNodeStartExecutionFailure일 시failureCode가 OnNodeStartDownloadFailure일 시failureCode가 OnNodeStartFailure일 시failureCode가 EbsMountFailure일 시failureCode가 EfsMountFailure일 시failureCode가 FsxMountFailure일 시failureCode가 RaidMountFailure일 시failureCode가 AmiVersionMismatch일 시failureCode가 InvalidAmi일 시failureCode가 HeadNodeBootstrapFailure이며 failureReason이 헤드 노드 설정에 실패했습니다.failureCode가 HeadNodeBootstrapFailure이며 failureReason이 클러스터 생성 시간이 초과되었습니다.failureCode가 HeadNodeBootstrapFailure이며 failureReason이 헤드 노드 부트스트랩에 실패했습니다.failureCode가 ResourceCreationFailure일 시failureCode가 ClusterCreationFailure일 시WaitCondition timed out... CloudFormation 스택에서 보기Resource creation cancelled CloudFormation 스택에서 보기AWS CloudFormation 스택의 오류 확인 Failed to run cfn-init... 또는 기타 오류INFO: Waiting for static fleet capacity provisioning로 끝나는 chef-client.log이 표시되는 경우Failed to run preinstall or postinstall in cfn-init.log가 표시되는 경우This AMI was created with xxx, but is trying to be used with xxx... CloudFormation 스택에서 보기This AMI was not baked by AWS ParallelCluster... CloudFormation 스택에서 보기pcluster create-cluster 명령이 로컬에서 실행되지 않는 경우추가 지원

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

클러스터를 생성하려는 경우

AWS ParallelCluster 버전 3.5.0 이상을 사용하여 클러스터를 생성할 때 로 --rollback-on-failure 설정된 상태에서 클러스터 생성에 실패한 false 경우 pcluster describe-cluster CLI 명령을 사용하여 상태 및 실패 정보를 가져옵니다. 이 경우 pcluster describe-cluster 출력의 예상 clusterStatusCREATE_FAILED입니다. failureCodefailureReason을 찾으려면 출력의 failures 섹션을 확인하세요. 그 후 다음 섹션에서 일치하는 failureCode를 찾아 추가 문제 해결 도움말을 찾아보세요. 자세한 내용은 pcluster describe-cluster 항목을 참조하세요.

다음 섹션에서는 헤드 노드의 로그(예: /var/log/cfn-init.log/var/log/chef-client.log 파일)를 확인하는 것이 좋습니다. AWS ParallelCluster 로그 및 로그 확인 방법에 대한 자세한 내용은 및 을 참조하십시오. 디버깅을 위한 키 로그 로그 검색 및 보존

없는 경우 AWS CloudFormation 콘솔로 이동하여 클러스터 스택을 확인하십시오. failureCode HeadNodeWaitCondition 또는 다른 리소스의 실패에 대해 알아보려면 Status Reason에서 추가 실패 상세 정보를 확인하세요. 자세한 내용은 에서 AWS CloudFormation 이벤트 보기 CREATE_FAILED 항목을 참조하세요. 헤드 노드의 /var/log/cfn-init.log/var/log/chef-client.log 파일을 확인합니다.

failureCodeOnNodeConfiguredExecutionFailure일 시

  • 왜 실패했나요?

    구성 내 헤드 노드 섹션의 OnNodeConfigured에 클러스터를 생성하기 위한 사용자 지정 스크립트를 제공했습니다. 하지만 사용자 지정 스크립트가 실행되지 않았습니다.

  • 해결 방법은?

    /var/log/cfn-init.log 파일을 확인하여 실패에 대해 자세히 알아보고 사용자 지정 스크립트에서 문제를 해결하는 방법을 알아보세요. 이 로그의 끝부분에서 Running command runpostinstall 메시지 뒤에 OnNodeConfigured 스크립트와 관련된 실행 정보가 표시될 수 있습니다.

failureCodeOnNodeConfiguredDownloadFailure일 시

  • 왜 실패했나요?

    구성 내 헤드 노드 섹션의 OnNodeConfigured에 클러스터를 생성하기 위한 사용자 지정 스크립트를 제공했습니다. 하지만 사용자 지정 스크립트가 다운로드되지 않았습니다.

  • 해결 방법은?

    URL이 유효하고 액세스가 올바르게 구성되어 있는지 확인하세요. 사용자 지정 부트스트랩 스크립트의 구성에 대한 자세한 내용은 사용자 지정 부트스트랩 작업 항목을 참조하세요.

    /var/log/cfn-init.log 파일을 확인하세요. 이 로그의 끝부분에서 Running command runpostinstall 메시지 다음에 다운로드를 포함한 OnNodeConfigured 스크립트 처리와 관련된 실행 정보가 표시될 수 있습니다.

failureCodeOnNodeConfiguredFailure일 시

  • 왜 실패했나요?

    구성 내 헤드 노드 섹션의 OnNodeConfigured에 클러스터를 생성하기 위한 사용자 지정 스크립트를 제공했습니다. 하지만 클러스터 배포에서 사용자 지정 스크립트 사용이 실패했습니다. 즉각적인 원인을 확인할 수 없으며 추가 조사가 필요합니다.

  • 해결 방법은?

    /var/log/cfn-init.log 파일을 확인하세요. 이 로그의 끝부분에서 Running command runpostinstall 메시지 뒤에 OnNodeConfigured 스크립트 처리와 관련된 실행 정보가 표시될 수 있습니다.

failureCodeOnNodeStartExecutionFailure일 시

  • 왜 실패했나요?

    구성 내 헤드 노드 섹션의 OnNodeStart에 클러스터를 생성하기 위한 사용자 지정 스크립트를 제공했습니다. 하지만 사용자 지정 스크립트가 실행되지 않았습니다.

  • 해결 방법은?

    /var/log/cfn-init.log 파일을 확인하여 실패에 대해 자세히 알아보고 사용자 지정 스크립트에서 문제를 해결하는 방법을 알아보세요. 이 로그의 끝부분에서 Running command runpreinstall 메시지 뒤에 OnNodeStart 스크립트와 관련된 실행 정보가 표시될 수 있습니다.

failureCodeOnNodeStartDownloadFailure일 시

  • 왜 실패했나요?

    구성 내 헤드 노드 섹션의 OnNodeStart에 클러스터를 생성하기 위한 사용자 지정 스크립트를 제공했습니다. 하지만 사용자 지정 스크립트가 다운로드되지 않았습니다.

  • 해결 방법은?

    URL이 유효하고 액세스가 올바르게 구성되어 있는지 확인하세요. 사용자 지정 부트스트랩 스크립트의 구성에 대한 자세한 내용은 사용자 지정 부트스트랩 작업 항목을 참조하세요.

    /var/log/cfn-init.log 파일을 확인하세요. 이 로그의 끝부분에서 Running command runpreinstall 메시지 다음에 다운로드를 포함한 OnNodeStart 스크립트 처리와 관련된 실행 정보가 표시될 수 있습니다.

failureCodeOnNodeStartFailure일 시

  • 왜 실패했나요?

    구성 내 헤드 노드 섹션의 OnNodeStart에 클러스터를 생성하기 위한 사용자 지정 스크립트를 제공했습니다. 하지만 클러스터 배포에서 사용자 지정 스크립트 사용이 실패했습니다. 즉각적인 원인을 확인할 수 없으며 추가 조사가 필요합니다.

  • 해결 방법은?

    /var/log/cfn-init.log 파일을 확인하세요. 이 로그의 끝부분에서 Running command runpreinstall 메시지 뒤에 OnNodeStart 스크립트 처리와 관련된 실행 정보가 표시될 수 있습니다.

failureCodeEbsMountFailure일 시

  • 왜 실패했나요?

    클러스터 구성에 정의된 EBS 볼륨이 탑재되지 못했습니다.

  • 해결 방법은?

    /var/log/chef-client.log 파일에서 실패 세부 정보를 확인하세요.

failureCodeEfsMountFailure일 시

  • 왜 실패했나요?

    클러스터 구성에 정의된 Amazon EFS 볼륨이 탑재되지 못했습니다.

  • 해결 방법은?

    기존 Amazon EFS 파일 시스템을 정의한 경우 클러스터와 파일 시스템 간에 트래픽이 허용되는지 확인하세요. 자세한 내용은 SharedStorage/EfsSettings/FileSystemId를 참조하세요.

    /var/log/chef-client.log 파일에서 실패 세부 정보를 확인하세요.

failureCodeFsxMountFailure일 시

  • 왜 실패했나요?

    클러스터 구성에 정의된 Amazon FSx 파일 시스템이 탑재되지 못했습니다.

  • 해결 방법은?

    기존 Amazon FSx 파일 시스템을 정의한 경우 클러스터와 파일 시스템 간에 트래픽이 허용되는지 확인하세요. 자세한 내용은 SharedStorage/FsxLustreSettings/FileSystemId를 참조하세요.

    /var/log/chef-client.log 파일에서 실패 세부 정보를 확인하세요.

failureCodeRaidMountFailure일 시

  • 왜 실패했나요?

    클러스터 구성에 정의된 RAID 볼륨이 탑재되지 못했습니다.

  • 해결 방법은?

    /var/log/chef-client.log 파일에서 실패 세부 정보를 확인하세요.

failureCodeAmiVersionMismatch일 시

  • 왜 실패했나요?

    사용자 지정 AMI를 생성하는 데 사용된 AWS ParallelCluster 버전은 클러스터를 구성하는 데 사용된 AWS ParallelCluster 버전과 다릅니다. CloudFormation 콘솔에서 클러스터 CloudFormation 스택 세부 정보를 확인하고 에서 AWS ParallelCluster 버전 및 AMI에 대한 추가 세부 정보를 확인하십시오. Status Reason HeadNodeWaitCondition 자세한 정보는 에서 AWS CloudFormation 이벤트 보기 CREATE_FAILED을 참조하세요.

  • 해결 방법은?

    사용자 지정 AMI를 생성하는 데 사용된 AWS ParallelCluster 버전이 클러스터를 구성하는 데 사용된 AWS ParallelCluster 버전과 동일한지 확인하십시오. 사용자 지정 AMI 버전 또는 pcluster CLI 버전을 변경하여 동일하게 만들 수 있습니다.

failureCodeInvalidAmi일 시

  • 왜 실패했나요?

    사용자 지정 AMI는 를 사용하여 빌드되지 않았으므로 유효하지 않습니다 AWS ParallelCluster.

  • 해결 방법은?

    pcluster build-image 명령을 사용하여 AMI를 상위 이미지로 만들어 AMI를 생성합니다. 자세한 내용은 pcluster build-image 항목을 참조하세요.

failureCodeHeadNodeBootstrapFailure이며 failureReason이 헤드 노드 설정에 실패했습니다.

  • 왜 실패했나요?

    즉각적인 원인을 확인할 수 없으며 추가 조사가 필요합니다. 예를 들어 클러스터가 보호 상태일 수 있는데, 이는 정적 컴퓨팅 플릿을 프로비저닝하지 못했기 때문일 수 있습니다.

  • 해결 방법은?

    /var/log/chef-client.log. 파일에서 실패 세부 정보를 확인하세요.

    참고

    RuntimeError 예외 Cluster state has been set to PROTECTED mode due to failures detected in static node provisioning가 표시되면 클러스터가 보호 상태인 것입니다. 자세한 내용은 보호 모드를 디버깅하는 방법 항목을 참조하세요.

failureCodeHeadNodeBootstrapFailure이며 failureReason이 클러스터 생성 시간이 초과되었습니다.

  • 왜 실패했나요?

    기본적으로 클러스터 생성을 완료하는 데 걸리는 시간 제한은 30분입니다. 클러스터 생성이 이 기간 내에 완료되지 않으면 시간 초과 오류와 함께 클러스터 생성이 실패합니다. 여러 가지 이유로 클러스터 생성 시간이 초과될 수 있습니다. 예를 들어 헤드 노드 생성 실패, 네트워크 문제, 헤드 노드에서 실행하는 데 너무 오래 걸리는 사용자 지정 스크립트, 컴퓨팅 노드에서 실행되는 사용자 지정 스크립트의 오류 또는 컴퓨팅 노드 프로비저닝의 긴 대기 시간으로 인해 시간 초과 실패가 발생할 수 있습니다. 즉각적인 원인을 확인할 수 없으며 추가 조사가 필요합니다.

  • 해결 방법은?

    /var/log/cfn-init.log/var/log/chef-client.log 파일에서 실패 세부 정보를 확인하세요. AWS ParallelCluster 로그 및 로그 가져오기 방법에 대한 자세한 내용은 디버깅을 위한 키 로그로그 검색 및 보존을 참조하세요.

    이러한 로그에서 다음을 발견할 수 있습니다.

    • chef-client.log 끝부분에 Waiting for static fleet capacity provisioning가 표시되는 경우

      이는 정적 노드의 전원이 켜질 때까지 기다릴 때 클러스터 생성 시간이 초과되었음을 나타냅니다. 자세한 내용은 컴퓨팅 노드 초기화 오류가 표시되는 경우 항목을 참조하세요.

    • cfn-init.log 끝부분에 OnNodeConfigured 또는 OnNodeStart 노드 스크립트가 종료되지 않았다고 표시되는 경우

      이는 OnNodeConfigured 또는 OnNodeStart 사용자 지정 스크립트를 실행하는 데 시간이 오래 걸리고 시간 초과 오류가 발생했음을 나타냅니다. 사용자 지정 스크립트에서 오랜 시간 실행으로 이어질 수 있는 문제가 있는지 확인합니다. 사용자 지정 스크립트를 실행하는 데 시간이 오래 걸리는 경우 다음 예와 같이 클러스터 구성 파일에 DevSettings 섹션을 추가하여 제한 시간을 변경하는 것이 좋습니다.

      DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
    • 로그를 찾을 수 없거나 헤드 노드가 성공적으로 생성되지 않았습니다.

      헤드 노드가 성공적으로 생성되지 않아 로그를 찾을 수 없을 수 있습니다. CloudFormation 콘솔에서 클러스터 스택 세부 정보를 보고 추가 장애 세부 정보를 확인하십시오.

failureCodeHeadNodeBootstrapFailure이며 failureReason이 헤드 노드 부트스트랩에 실패했습니다.

  • 왜 실패했나요?

    즉각적인 원인을 확인할 수 없으며 추가 조사가 필요합니다.

  • 해결 방법은?

    /var/log/cfn-init.log/var/log/chef-client.log 파일을 확인합니다.

failureCodeResourceCreationFailure일 시

  • 왜 실패했나요?

    클러스터 생성 프로세스 중 일부 리소스 생성이 실패했습니다. 실패는 다양한 이유로 발생할 수 있습니다. 예를 들어 용량 문제나 잘못 구성된 IAM 정책으로 인해 리소스 생성 실패가 발생할 수 있습니다.

  • 해결 방법은?

    CloudFormation 콘솔에서 클러스터 스택을 보고 추가 리소스 생성 실패 세부 정보를 확인합니다.

failureCodeClusterCreationFailure일 시

  • 왜 실패했나요?

    즉각적인 원인을 확인할 수 없으며 추가 조사가 필요합니다.

  • 해결 방법은?

    CloudFormation 콘솔에서 클러스터 스택을 보고 에서 추가 실패 세부 정보를 확인하십시오. Status Reason HeadNodeWaitCondition

    /var/log/cfn-init.log/var/log/chef-client.log 파일을 확인합니다.

WaitCondition timed out... CloudFormation 스택에서 보기

자세한 정보는 failureCode가 HeadNodeBootstrapFailure이며 failureReason이 클러스터 생성 시간이 초과되었습니다.을 참조하세요.

Resource creation cancelled CloudFormation 스택에서 보기

자세한 정보는 failureCode가 ResourceCreationFailure일 시을 참조하세요.

AWS CloudFormation 스택의 오류 확인 Failed to run cfn-init... 또는 기타 오류

추가 실패 세부 정보는 /var/log/cfn-init.log/var/log/chef-client.log를 확인하세요.

INFO: Waiting for static fleet capacity provisioning로 끝나는 chef-client.log이 표시되는 경우

이는 정적 노드의 전원이 켜질 때까지 기다릴 때 발생하는 클러스터 생성 타임아웃과 관련이 있습니다. 자세한 내용은 컴퓨팅 노드 초기화 오류가 표시되는 경우 항목을 참조하세요.

Failed to run preinstall or postinstall in cfn-init.log가 표시되는 경우

클러스터 구성 HeadNode 섹션에 OnNodeConfigured 또는 OnNodeStart 스크립트가 있습니다. 스크립트가 제대로 작동하지 않습니다. /var/log/cfn-init.log 파일에서 사용자 지정 스크립트 오류 세부 정보를 확인하세요.

This AMI was created with xxx, but is trying to be used with xxx... CloudFormation 스택에서 보기

자세한 정보는 failureCode가 AmiVersionMismatch일 시을 참조하세요.

This AMI was not baked by AWS ParallelCluster... CloudFormation 스택에서 보기

자세한 정보는 failureCode가 InvalidAmi일 시을 참조하세요.

pcluster create-cluster 명령이 로컬에서 실행되지 않는 경우

로컬 파일 시스템의 ~/.parallelcluster/pcluster-cli.log에서 오류 세부 정보를 확인하세요.

추가 지원

클러스터 배포 문제 해결의 문제 해결 지침을 따르세요.

현재 AWS ParallelCluster 사용 중인 시나리오가 GitHub 알려진 문제에 포함되어 있는지 확인하세요 GitHub.

추가 지원이 필요하면 추가 지원을 참조하세요.