기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
Amazon SageMaker 훈련 계획은 대규모 AI 모델 훈련 워크로드에 대한 GPU 용량 사용을 예약하고 극대화할 수 있는 기능입니다. 이 기능은 최신 NVIDIA GPU 기술 및 AWS Trainium 칩을 비롯한 다양한 GPU 가속 컴퓨팅 옵션을 다루는 인기 있는 인스턴스 유형에 대한 액세스를 제공합니다. SageMaker 훈련 계획을 사용하면 기본 인프라를 관리할 필요 없이 지정된 타임라인 및 예산 내에서 이러한 고수요 고성능 컴퓨팅 리소스에 대한 예측 가능한 액세스를 보호할 수 있습니다. 이러한 유연성은 미션 크리티컬 AI 워크로드에 대해 이러한 초과 구독 컴퓨팅 인스턴스를 획득하고 예약하는 데 따르는 문제를 해결하는 조직에 특히 유용합니다.
SageMaker 훈련 계획이란?
SageMaker 훈련 계획을 사용하면 SageMaker 훈련 작업 또는 SageMaker SageMaker HyperPod 클러스터와 같은 특정 리소스 요구 사항에 맞는 컴퓨팅 용량에 대한 예약을 생성할 수 있습니다. 서비스는 가속화된 컴퓨팅 리소스의 프로비저닝, 인프라 설정, 워크로드 실행 및 인프라 장애 복구를 자동으로 처리합니다.
SageMaker 훈련 계획의 이점
SageMaker 훈련 계획은 다음과 같은 이점을 제공합니다.
-
예측 가능한 액세스: 지정된 기간 내에 기계 학습 워크로드의 GPU 용량을 예약합니다.
-
비용 관리: 대규모 교육 요구 사항에 대한 사전 계획 및 예산 수립.
-
자동화된 리소스 관리: SageMaker 훈련 계획은 인프라의 프로비저닝 및 관리를 처리합니다.
-
유연성: SageMaker 훈련 작업 및 SageMaker HyperPod 클러스터를 포함한 다양한 리소스에 대한 훈련 계획을 생성합니다.
-
내결함성: SageMaker AI 훈련 작업의 가용 영역 간 인프라 장애 및 워크로드 마이그레이션에서 자동으로 복구하는 이점이 있습니다.
SageMaker 훈련 계획 사용자 워크플로
SageMaker 훈련 계획은 다음 단계를 거칩니다.
관리 단계:
-
검색 및 검토: 인스턴스 유형, 개수, 시작 시간, 기간 등 컴퓨팅 요구 사항에 맞는 사용 가능한 플랜 상품을 찾습니다.
-
계획 생성: 선택한 계획 제안의 ID를 사용하여 요구 사항에 맞는 훈련 계획을 예약합니다.
-
결제 및 예약: 선결제 성공 시 플랜 상태는가 됩니다
Scheduled
.
계획 사용자/ML 엔지니어를 위한 단계:
-
리소스 할당: 계획을 사용하여 SageMaker AI 훈련 작업을 대기열에 추가하거나 SageMaker HyperPod 클러스터 인스턴스 그룹에 할당합니다.
-
활성화: 계획 시작 날짜가 도착하면이 됩니다
Active
. 사용 가능한 예약 용량에 따라 SageMaker 훈련 계획은 훈련 작업을 자동으로 시작하거나 인스턴스 그룹을 프로비저닝합니다.
다음 다이어그램은 SageMaker 훈련 계획이 다양한 대상 리소스와 상호 작용하는 방식에 대한 포괄적인 개요를 제공하여 SageMaker 훈련 작업과 SageMaker HyperPod 클러스터 모두에 대한 계획의 수명 주기와 리소스 할당 역할을 보여줍니다.
-
SageMaker 훈련 작업에 대한 훈련 계획: 첫 번째 다이어그램은 훈련 계획과 SageMaker 훈련 작업 간의 상호 작용에 대한 end-to-end 워크플로를 보여줍니다.
-
SageMaker HyperPod 클러스터에 대한 훈련 계획: 두 번째 다이어그램은 훈련 계획과 SageMaker HyperPod 인스턴스 그룹 간의 상호 작용에 대한 end-to-end 워크플로를 보여줍니다.
지원되는 인스턴스 유형 및 AWS 리전
훈련 계획은 다음과 같은 특정 고성능 인스턴스 유형에 대한 예약을 지원하며, 각 인스턴스는 일부 AWS 리전에서 사용할 수 있습니다.
-
ml.p4d.24xlarge
-
ml.p5.48xlarge
-
ml.p5e.48xlarge
-
ml.p5en.48xlarge
-
ml.trn1.32xlarge
-
ml.trn2.48xlarge
참고
인스턴스 유형의 가용성은 시간이 지남에 따라 변경될 수 있습니다. 리전에 따라 사용 가능한 인스턴스 유형과 해당 요금에 대한 up-to-date 정보는 SageMaker AI 요금을
여러 리전에서의 가용성을 통해는 데이터 레지던시 요구 사항 및 다른 AWS 서비스에 대한 근접성과 같은 요소를 고려하여 워크로드에 가장 적합한 위치를 선택할 수 있습니다.
중요
SageMaker 훈련 계획을 사용하여 다음 예약 기간 및 인스턴스 수량 옵션으로 인스턴스를 예약할 수 있습니다.
-
예약 기간은 1일에서 182일까지 1일 단위로 제공됩니다.
-
예약 인스턴스 수량 옵션은 1, 2, 4, 8, 16, 32 또는 64개 인스턴스입니다.
계획 구성
SageMaker 훈련 계획은 하나 이상의 예약 용량 블록으로 구성될 수 있으며, 각 블록은 다음으로 정의됩니다.
-
특정 인스턴스 유형
-
인스턴스 수량
-
가용 영역
-
지속 시간
-
시작 및 종료 시간
참고
-
훈련 계획은 대상 리소스(SageMaker 훈련 작업 또는 SageMaker HyperPod)에 따라 다르며 교환할 수 없습니다.
-
단일 훈련 계획의 여러 예약 용량 블록은 불연속적일 수 있습니다. 즉, 예약된 시간 블록 사이에 간격이 있을 수 있습니다.
-
훈련 계획의 상태는 예약 용량 기간이 시작
Scheduled
Active
될 때에서 로 전환된 다음 다음 예약 용량 기간이 시작될 때까지 기다릴Scheduled
때 로 다시 전환됩니다. -
예약 용량 종료 프로세스: 예약 용량 종료 시간 30분 전까지 모든 예약 인스턴스에 대한 전체 액세스 권한을 갖습니다. 예약 용량에 30분이 남아 있으면 SageMaker 훈련 계획은 해당 예약 용량 내에서 실행 중인 인스턴스를 종료하는 프로세스를 시작합니다.
SageMaker 훈련 계획 검색 동작
훈련 계획 상품을 검색할 때 SageMaker 훈련 계획은 수요가 높고 지속적인 시간 블록이 부족한 경우에도 다음 접근 방식을 사용하여 사용자의 리소스 가용성과 유연성을 극대화합니다.
-
초기 연속 검색: 시스템은 먼저 지정된 모든 기준(대상 리소스, 요청된 인스턴스 유형, 인스턴스 수, 예약 기간, 시작 및 종료 날짜)과 일치하는 단일 연속 예약 용량 블록을 찾으려고 시도합니다.
-
2블록 검색:
-
SageMaker 훈련 계획은 모든 기준을 충족하는 단일 연속 예약 용량 블록을 사용할 수 없는 경우 "용량 없음" 결과를 즉시 반환하지 않습니다. 대신 두 개의 별도 예약 용량 블록을 사용하여 요청을 자동으로 이행하려고 시도합니다.
-
이 시나리오에서는 요청의 총 기간이 두 개의 비연속 시간 세그먼트로 분할됩니다. 예를 들어 사용자가 48시간 예약을 요청한 경우 시스템은 가용성과 시작일 및 종료일에 따라 잠재적으로 다른 일 또는 주에 2개의 24시간 블록이 있는 플랜을 제공할 수 있습니다.
-
이 2블록 접근 방식은 리소스 할당에 더 많은 유연성을 제공하므로 요청된 전체 기간 동안 사용할 수 없는 수요가 많은 인스턴스를 보호할 수 있습니다.
-
참고
사용자 고려 사항:
-
2블록 제품과 함께 제공되는 경우 사용자는이 분할 할당이 워크로드 요구 사항을 충족하는지 신중하게 고려해야 합니다.
-
이렇게 하려면 예약의 비연속적 특성을 수용하기 위해 작업 예약 또는 워크로드 배포를 조정해야 할 수 있습니다.
훈련 계획 상품을 검색할 때 SageMaker 훈련 계획은 대상 리소스를 기반으로 검색 전략을 조정합니다.
-
SageMaker HyperPod 클러스터의 경우:
-
제안은 단일 가용 영역(AZ)으로 제한됩니다.
-
이렇게 하면 클러스터 내에서 일관된 네트워크 성능과 데이터 로컬성이 보장됩니다.
-
-
SageMaker 훈련 작업의 경우:
-
오퍼링은 여러 가용 영역에 걸쳐 있을 수 있습니다.
-
이는 플랜 상품에 여러 불연속 예약 용량이 포함된 경우 특히 관련이 있습니다.
-
예를 들어, 계획에는 한 예약 용량 블록의 경우 AZ-A의 용량을 포함하고 다른 예약 용량 블록의 경우 AZ-B의 용량이 포함될 수 있습니다. SageMaker 훈련 계획은 리소스 가용성에 따라 가용 영역(AZs) 간에 워크로드를 자동으로 이동할 수 있습니다.
훈련 작업에 대한이 다중 AZ 접근 방식은 리소스 할당의 유연성을 높여 워크로드에 적합한 용량을 찾을 가능성을 높입니다. 그러나 사용자는 예약 기간의 여러 부분에서 작업이 서로 다른 AZs에서 실행될 수 있다는 점에 유의해야 합니다.
-