기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
SageMaker AI 분산 데이터 병렬 처리(SMDDP) 라이브러리는 AWS 인프라에 최적화된 집합 통신 작업을 구현하여 거의 선형적인 조정 효율성으로 딥 러닝 모델에 대한 SageMaker 훈련 기능을 확장합니다.
대규모 언어 모델() 및 확산 모델과 같은 대규모 기계 학습(MLLLM) 모델을 대규모 훈련 데이터 세트에서 훈련할 때 ML 실무자는 액셀러레이터 및 분산 훈련 기법의 클러스터를 사용하여 각 메모리에 적합하지 않은 모델의 GPU 메모리 제약 조건을 훈련하거나 해결하는 시간을 줄입니다. ML 실무자는 단일 인스턴스에서 여러 액셀러레이터로 시작한 다음 워크로드 요구 사항이 증가함에 따라 인스턴스 클러스터로 확장하는 경우가 많습니다. 클러스터 크기가 증가함에 따라 여러 노드 간의 통신 오버헤드도 감소하여 전반적인 컴퓨팅 성능이 저하됩니다.
이러한 오버헤드 및 메모리 문제를 해결하기 위해 SMDDP 라이브러리는 다음을 제공합니다.
-
SMDDP 라이브러리는 AWS 네트워크 인프라 및 Amazon SageMaker AI ML 인스턴스 토폴로지에 대한 훈련 작업을 최적화합니다.
-
SMDDP 라이브러리는
AllReduce
의 구현과 AWS 인프라에 최적화된AllGather
집합 통신 작업을 통해 노드 간 통신을 개선합니다.
SMDDP 라이브러리 제공의 세부 정보에 대해 자세히 알아보려면 로 이동합니다 SageMaker AI 분산 데이터 병렬 처리 라이브러리 소개.
SageMaker AI에서 제공하는 모델 병렬 전략을 사용한 훈련에 대한 자세한 내용은 단원을 참조하십시오(아카이브) SageMaker 모델 병렬 처리 라이브러리 v1.x.