AWS Batch 통합을 통해 클러스터의 문제 해결 - AWS ParallelCluster

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

AWS Batch 통합을 통해 클러스터의 문제 해결

이 섹션은 AWS Batch 스케줄러 통합이 있는 클러스터와 관련이 있습니다.

헤드 노드 문제

Slurm 클러스터와 동일한 방식으로 헤드 노드 설정 문제를 해결할 수 있습니다(Slurm 전용 로그 제외). 이러한 문제에 대한 자세한 내용은 헤드 노드 섹션을 참조하세요.

컴퓨팅 문제

AWS Batch 서비스의 규모 조정 및 컴퓨팅 측면을 관리합니다. 컴퓨팅 관련 문제가 발생하는 경우 문제 AWS Batch 해결 설명서에서 도움을 받으십시오.

작업 실패

작업이 실패할 경우 awsbout 명령을 실행하여 작업 출력을 검색할 수 있습니다. awsbstat명령을 실행하여 Amazon에서 저장한 작업 로그로 연결되는 링크를 얻을 수도 CloudWatch 있습니다.

엔드포인트 URL의 연결 시간 초과 오류

다중 노드 병렬 작업이 Connect timeout on endpoint URL 오류로 실패하는 경우

  • awsbout 출력 로그에서 작업이 Detected 3/3 compute nodes. Waiting for all compute nodes to start. 출력의 다중 노드 병렬인지 확인합니다.

  • 컴퓨팅 노드 서브넷이 퍼블릭인지 확인합니다.

다중 노드 병렬 작업은 in을 사용할 때 퍼블릭 서브넷 사용을 지원하지 않습니다. AWS Batch AWS ParallelCluster컴퓨팅 노드와 작업에는 프라이빗 서브넷을 사용하세요. 자세한 내용을 알아보려면AWS Batch 사용 설명서컴퓨팅 환경 고려 사항을 참조하세요. 컴퓨팅 노드의 프라이빗 서브넷을 구성하려면 AWS ParallelCluster 스케줄러 포함 AWS Batch을 참조하세요.