기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS Batch SageMaker AI 훈련 작업에 대한 지원
AWS Batch 작업 대기열은 컴퓨팅 리소스에서 실행되기 전에 제출된 작업을 저장하고 우선 순위를 지정합니다. SageMaker AI 훈련 작업을 작업 대기열에 제출하여에서 제공하는 서버리스 작업 예약 및 우선순위 지정 도구를 활용할 수 있습니다 AWS Batch.
작동 방법
다음 단계에서는 SageMaker AI 훈련 작업에서 AWS Batch 작업 대기열을 사용하는 방법의 워크플로를 설명합니다. 자세한 자습서 및 예제 노트북은 시작 섹션을 참조하세요.
-
AWS Batch 및 필요한 권한을 설정합니다. 자세한 내용은 AWS Batch 사용 설명서에서 AWS Batch설정을 참조하세요.
-
콘솔에서 또는를 사용하여 AWS CLI다음 AWS Batch 리소스를 생성합니다.
-
서비스 환경 - SageMaker AI와 통합하기 위한 구성 파라미터를 포함합니다.
-
SageMaker AI 훈련 작업 대기열 - SageMaker AI와 통합하여 훈련 작업을 제출합니다.
-
-
훈련 컨테이너 이미지와 같은 SageMaker AI 훈련 작업에 대한 세부 정보 및 요청을 구성합니다. 훈련 작업을 AWS Batch 대기열에 제출하려면 AWS CLI AWS SDK for Python (Boto3)또는 SageMaker AI Python SDK를 사용할 수 있습니다.
-
훈련 작업을 작업 대기열에 제출합니다. 다음 옵션을 사용하여 작업을 제출할 수 있습니다.
-
AWS Batch SubmitServiceJob API를 사용합니다.
-
SageMaker AI Python SDK의
aws_batch
모듈을사용합니다. TrainingQueue 객체와 모델 훈련 객체(예: 예측기 또는 ModelTrainer)를 생성한 후 queue.submit()
메서드를 사용하여 훈련 작업을 TrainingQueue에 제출할 수 있습니다.
-
-
작업을 제출한 후 콘솔, AWS Batch DescribeServiceJob API 또는 SageMaker AI DescribeTrainingJob API를 AWS Batch 사용하여 작업 대기열 및 작업 상태를 확인합니다.
비용 및 가용성
훈련 작업에 대한 자세한 요금 정보는 Amazon SageMaker AI 요금을
훈련 작업을 사용할 수 AWS 리전 있는 모든에서 AWS Batch SageMaker AI 훈련 작업에를 사용할 수 있습니다. 자세한 내용은 Amazon SageMaker AI 엔드포인트 및 할당량을 참조하세요.
필요할 때 필요한 용량을 확보하려면 SageMaker AI Flexible Training Plans(FTP)를 사용할 수 있습니다. 이러한 계획을 통해 훈련 작업의 용량을 예약할 수 있습니다. AWS Batch의 대기열 기능과 결합하면 플랜 기간 동안 사용률을 극대화할 수 있습니다. 자세한 내용은 훈련 작업 또는 HyperPod 클러스터에 대한 훈련 계획 예약을 참조하세요.
시작
AWS Batch 작업 대기열을 설정하고 SageMaker AI 훈련 작업을 제출하는 방법에 대한 자습서는 AWS Batch 사용 설명서AWS Batch 의 SageMaker AI에서 시작하기를 참조하세요.
SageMaker AI Python SDK에서 aws_batch
모듈을 사용하는 방법을 보여주는 Jupyter 노트북의 경우 AWS Batch amazon-sagemaker-examples GitHub 리포지토리의 SageMaker AI 훈련 작업용 노트북 예제를 참조하세요 amazon-sagemaker-examples