스팟 인스턴스 작업 - AWS ParallelCluster

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

스팟 인스턴스 작업

AWS ParallelCluster는 클러스터 구성 파일에서SlurmQueues/CapacityType 또는 AwsBatchQueues/CapacityTypeSPOT으로 설정한 경우 스팟 인스턴스를 사용합니다. 스팟 인스턴스는 온디맨드 인스턴스보다 비용 효율적이지만 중단될 수 있습니다. 또한 Amazon EC2가 스팟 인스턴스를 중지 또는 종료하기 2분 전에 경고하는 스팟 인스턴스 종료 공지를 활용할 수 있습니다. 자세한 내용은 Linux 인스턴스용 Amazon EC2 사용 설명서스팟 인스턴스 중단을 참조하세요. 스팟 인스턴스의 AwsBatchQueues 작동 방식을 알아보려면 AWS Batch 사용 설명서컴퓨팅 리소스를 참조하세요.

스케줄러가 구성된 AWS ParallelCluster는 온디맨드 인스턴스가 있는 대기열의 컴퓨팅 리소스에 작업을 할당하는 것과 같은 방식으로 스팟 인스턴스가 있는 대기열의 컴퓨팅 리소스에 작업을 할당합니다.

스팟 인스턴스를 사용할 경우 계정에 AWSServiceRoleForEC2Spot 서비스 연결 역할이 있어야 합니다. AWS CLI를 사용하여 계정에서 이 역할을 생성하려면 다음 명령을 실행합니다.

$ aws iam create-service-linked-role --aws-service-name spot.amazonaws.com

자세한 내용은 Linux 인스턴스용 Amazon EC2 사용 설명서스팟 인스턴스 요청용 서비스 연결 역할을 참조하세요.

다음 섹션에서는 SlurmQueues를 사용할 경우 스팟 인스턴스가 중단될 수 있는 세 가지 시나리오를 설명합니다.

시나리오 1: 실행 중인 작업이 없는 스팟 인스턴스가 중단됨

이 중단이 발생하면 스케줄러 대기열에 추가 인스턴스가 필요한 보류 중인 작업이 있거나 활성 인스턴스 수가 SlurmQueues/ComputeResources/MinCount보다 적은 경우 AWS ParallelCluster가 인스턴스를 교체하려고 합니다. AWS ParallelCluster에서 새 인스턴스를 프로비저닝할 수 없는 경우 새 인스턴스에 대한 요청이 주기적으로 반복됩니다.

시나리오 2: 단일 노드 작업을 실행하는 스팟 인스턴스가 중단됨

작업이 실패하고 상태 코드가 NODE_FAIL로 표시되고 작업이 대기열에 추가됩니다(작업 제출 시 --no-requeue를 지정하지 않은 경우). 노드가 정적 노드인 경우 해당 노드가 교체됩니다. 노드가 동적 노드인 경우 노드가 종료되고 재설정됩니다. --no-requeue 파라미터를 포함한 sbatch에 대한 자세한 내용은 Slurm 설명서에서 sbatch를 참조하세요.

시나리오 3: 다중 노드 작업을 실행하는 스팟 인스턴스가 중단됨

작업이 실패하고 상태 코드가 NODE_FAIL로 표시되고 작업이 대기열에 추가됩니다(작업 제출 시 --no-requeue를 지정하지 않은 경우). 노드가 정적 노드인 경우 해당 노드가 교체됩니다. 노드가 동적 노드인 경우 노드가 종료되고 재설정됩니다. 종료된 작업을 실행 중이었던 다른 노드는 구성된 SlurmSettings/ScaledownIdletime시간이 경과한 후에 축소될 수 있습니다.

스팟 인스턴스에 대한 자세한 내용은 Linux 인스턴스용 Amazon EC2 사용 설명서스팟 인스턴스를 참조하세요.