Amazon SageMaker AI의 이기종 클러스터에서 분산 훈련 실행

SageMaker AI 예측기 클래스의 distribution 인수를 통해 분산 훈련을 실행할 특정 인스턴스 그룹을 할당할 수 있습니다. 예를 들어 다음과 같은 두 인스턴스 그룹이 있고 그 중 하나에서 다중 GPU 훈련을 실행하려고 한다고 가정해 보겠습니다.


from sagemaker.instance_group import InstanceGroup

instance_group_1 = InstanceGroup("instance_group_1", "ml.c5.18xlarge", 1)
instance_group_2 = InstanceGroup("instance_group_2", "ml.p3dn.24xlarge", 2)

인스턴스 그룹 중 하나에 대해 분산 훈련 구성을 설정할 수 있습니다. 예를 들어, 다음 코드 예제는 분산 훈련 구성에 두 개의 ml.p3dn.24xlarge 인스턴스를 사용하여 training_group_2를 할당하는 방법을 보여줍니다.

참고

현재는 이기종 클러스터의 인스턴스 그룹 하나만 배포 구성에 지정할 수 있습니다.

MPI 사용 시

SageMaker AI 데이터 병렬 라이브러리 사용

참고

SageMaker AI 데이터 병렬 라이브러리를 사용하는 경우 인스턴스 그룹이 라이브러리에서 지원하는 인스턴스 유형으로 구성되어 있는지 확인합니다.

SageMaker AI 데이터 병렬 라이브러리에 대한 자세한 내용은 SageMaker AI 데이터 병렬 훈련을 참조하세요.

SageMaker AI 모델 병렬 라이브러리 사용

SageMaker AI 모델 병렬 라이브러리에 대한 자세한 내용은 SageMaker AI 모델 병렬 훈련을 참조하세요.

javascript가 브라우저에서 비활성화되거나 사용이 불가합니다.

AWS 설명서를 사용하려면 Javascript가 활성화되어야 합니다. 지침을 보려면 브라우저의 도움말 페이지를 참조하십시오.

문서 규칙

Amazon SageMaker AI에서 이기종 클러스터를 사용하여 훈련 작업 구성

훈련 스크립트를 수정하여 인스턴스 그룹을 할당하세요.