스팟 인스턴스 작업 - AWS ParallelCluster

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

스팟 인스턴스 작업

AWS ParallelCluster 클러스터 구성 파일에서 SlurmQueuesAwsBatchQueues/CapacityType또는 CapacityType/를 SPOT 설정한 경우 스팟 인스턴스를 사용합니다. 스팟 인스턴스는 온디맨드 인스턴스보다 비용 효율적이지만 중단될 수 있습니다. 또한 Amazon EC2가 스팟 인스턴스를 중지 또는 종료하기 2분 전에 경고하는 스팟 인스턴스 종료 공지를 활용할 수 있습니다. 자세한 내용은 Amazon EC2 사용 설명서의 스팟 인스턴스 중단을 참조하십시오. 스팟 인스턴스의 AwsBatchQueues 작동 방식을 알아보려면AWS Batch 사용 설명서컴퓨팅 리소스를 참조하세요.

AWS ParallelCluster 구성된 스케줄러는 온디맨드 인스턴스가 있는 대기열의 컴퓨팅 리소스에 작업을 할당하는 것과 같은 방식으로 스팟 인스턴스가 있는 대기열의 컴퓨팅 리소스에 작업을 할당합니다.

스팟 인스턴스를 사용하는 경우 계정에 서비스 연결 역할이 있어야 합니다. AWSServiceRoleForEC2Spot 를 사용하여 계정에서 이 역할을 생성하려면 다음 명령을 실행합니다. AWS CLI

$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

자세한 내용은 Amazon EC2 사용 설명서의 스팟 인스턴스 요청에 대한 서비스 연결 역할을 참조하십시오.

다음 섹션에서는 SlurmQueues를 사용할 경우 스팟 인스턴스가 중단될 수 있는 세 가지 시나리오를 설명합니다.

시나리오 1: 실행 중인 작업이 없는 스팟 인스턴스가 중단됨

이러한 중단이 발생하면 스케줄러 대기열에 추가 인스턴스가 필요한 보류 중인 작업이 있거나 활성 인스턴스 수가 //보다 적은 경우 인스턴스 교체를 AWS ParallelCluster 시도합니다. SlurmQueuesComputeResourcesMinCount 새 인스턴스를 AWS ParallelCluster 프로비저닝할 수 없는 경우 새 인스턴스에 대한 요청이 주기적으로 반복됩니다.

시나리오 2: 단일 노드 작업을 실행하는 스팟 인스턴스가 중단됨

작업이 실패하고 상태 코드가 NODE_FAIL로 표시되고 작업이 대기열에 추가됩니다(작업 제출 시 --no-requeue를 지정하지 않은 경우). 노드가 정적 노드인 경우 해당 노드가 교체됩니다. 노드가 동적 노드인 경우 노드가 종료되고 재설정됩니다. --no-requeue파라미터 포함에 대한 sbatch 자세한 내용은 Slurm설명서를 참조하십시오 sbatch.

시나리오 3: 다중 노드 작업을 실행하는 스팟 인스턴스가 중단됨

작업이 실패하고 상태 코드가 NODE_FAIL로 표시되고 작업이 대기열에 추가됩니다(작업 제출 시 --no-requeue를 지정하지 않은 경우). 노드가 정적 노드인 경우 해당 노드가 교체됩니다. 노드가 동적 노드인 경우 노드가 종료되고 재설정됩니다. 종료된 작업을 실행 중이었던 다른 노드는 구성된 SlurmSettings/ScaledownIdletime시간이 경과한 후에 스케일 다운될 수 있습니다.

스팟 인스턴스에 대한 자세한 내용은 Amazon EC2 사용 설명서의 스팟 인스턴스를 참조하십시오.