Amazon에서 관리형 스팟 교육 사용하기 SageMaker - 아마존 SageMaker

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon에서 관리형 스팟 교육 사용하기 SageMaker

Amazon에서는 관리형 Amazon SageMaker EC2 스팟 인스턴스를 사용하여 기계 학습 모델을 쉽게 학습할 수 있습니다. 관리형 스팟 훈련은 온디맨드 인스턴스에 비해 최대 90%까지 모델 훈련 비용을 최적화할 수 있습니다. SageMaker 사용자를 대신하여 스팟 중단을 관리합니다.

관리형 스팟 훈련은 Amazon EC2 스팟 인스턴스를 사용하여 온디맨드 인스턴스 대신 훈련 작업을 실행합니다. 스팟 인스턴스를 사용하는 교육 작업과 Amazon EC2 스팟 인스턴스를 사용하여 작업이 실행될 SageMaker 때까지 대기하는 시간을 지정하는 중지 조건을 지정할 수 있습니다. 교육 실행 중에 생성된 지표와 로그는 에서 사용할 수 있습니다. CloudWatch

하이퍼파라미터 튜닝이라고도 하는 Amazon SageMaker 자동 모델 튜닝은 관리형 스팟 트레이닝을 사용할 수 있습니다. 자동 모델 튜닝에 대한 자세한 내용은 를 사용하여 자동 모델 튜닝을 수행하십시오. SageMaker 를 참고하십시오.

스팟 인스턴스가 중단되어 작업 시작 또는 완료 시간이 더 오래 걸릴 수 있습니다. 체크포인트를 사용하도록 관리형 스팟 트레이닝 작업을 구성할 수 있습니다. SageMaker 로컬 경로에서 Amazon S3로 체크포인트 데이터를 복사합니다. 작업이 다시 시작되면 Amazon S3의 데이터를 로컬 경로로 다시 SageMaker 복사합니다. 그런 다음 다시 시작하는 대신 마지막 체크포인트에서 훈련 작업을 다시 시작할 수 있습니다. 검사에 대한 자세한 내용은 Amazon에서 체크포인트 사용하기 SageMaker 단원을 참조하십시오.

참고

교육 작업이 빨리 완료되지 않는 한, 관리형 스팟 교육과 함께 체크포인트를 사용하는 것이 좋습니다. SageMaker 체크포인트를 사용하지 않는 내장 알고리즘과 마켓플레이스 알고리즘은 현재 3600초 (MaxWaitTimeInSeconds60분) 로 제한되어 있습니다.

관리형 스팟 교육 사용

관리형 스팟 교육을 사용하려면 교육 작업을 생성합니다. EnableManagedSpotTrainingTrue로 설정하고 MaxWaitTimeInSeconds를 지정합니다. MaxWaitTimeInSecondsMaxRuntimeInSeconds보다 커야 합니다. 교육 작업 생성에 대한 자세한 정보는 DescribeTrainingJob 단원을 참조하십시오.

(1 - (BillableTimeInSeconds / TrainingTimeInSeconds)) * 100 공식을 사용하여 관리되는 스팟 교육을 사용하여 절감 효과를 계산할 수 있습니다. 예를 들어 BillableTimeInSeconds가 100이고 TrainingTimeInSeconds가 500이면 훈련 작업이 500초 동안 실행되었지만 요금은 100초 동안만 청구되었음을 의미합니다. 절감액은 (1 - (100 / 500)) * 100 = 80% 입니다.

Amazon SageMaker 스팟 인스턴스에서 교육 작업을 실행하는 방법과 관리형 스팟 교육이 어떻게 작동하고 청구 가능 시간을 단축하는지 알아보려면 다음 예제 노트북을 참조하십시오.

관리형 스팟 교육 수명 주기

를 사용하여 TrainingJobStatus 교육 작업을 모니터링하고 에서 SecondaryStatus 반환한 교육 작업을 모니터링할 수 DescribeTrainingJob있습니다. 아래 목록은 교육 시나리오에 따라 TrainingJobStatusSecondaryStatus 값이 어떻게 변경되는지 보여줍니다.

  • 교육 도중 중단없이 획득한 스팟 인스턴스

    1. InProgress: StartingDownloadingTrainingUploading

  • 한번 중단된 스팟 인스턴스 나중에, 훈련 작업을 마치기 위해 충분한 스팟 인스턴스가 확보되었습니다.

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingUploading

  • 스팟 인스턴스가 두 번 중단되어 MaxWaitTimeInSeconds가 초과되었습니다.

    1. InProgress: StartingDownloadingTrainingInterruptedStartingDownloadingTrainingInterruptedDownloadingTraining

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded

  • 스팟 인스턴스가 시작되지 않았습니다.

    1. InProgress: Starting

    2. Stopping: Stopping

    3. Stopped: MaxWaitTimeExceeded