기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
AWS 인프라에 최적화된 SMDDP 라이브러리와의 호환성
AWS 인프라에 최적화된 AllGather
집합 통신 작업을 제공하는 분산 데이터 병렬 처리(SMP) 라이브러리와 함께 SageMaker 모델 병렬 처리 라이브러리 v2( v2)를 사용할 수 있습니다. SageMaker SMDDP 분산 훈련에서 집합 통신 작업은 여러 GPU 작업자를 동기화하고 작업자 간에 정보를 교환하도록 설계되었습니다. AllGather
는 일반적으로 샤딩된 데이터 병렬 처리에 사용되는 핵심 집합 통신 작업 중 하나입니다. SMDDP AllGather
작업에 대해 자세히 알아보려면 이러한 집합 통신 작업 SMDDP AllGather 집단 연산 최적화를 참조하세요. 수렴에 대한 부작용 없이 더 빠른 end-to-end 훈련에 직접적으로 기여합니다.
참고
SMDDP 라이브러리는 P4 및 P4de 인스턴스를 지원합니다(라이브SMDDP러리지원되는 프레임워크 AWS 리전, 인스턴스 유형의 참조).
SMDDP 라이브러리는 프로세스 그룹
AllGather
작업을 활성화SMDDP하고 사용하려면 의 일부로 훈련 스크립트에 두 줄의 코드를 추가해야 합니다1단계: 훈련 스크립트 조정 PyTorch FSDP . 먼저 SMDDP 백엔드로 PyTorch Distributed를 초기화한 다음 SMP 초기화를 실행해야 합니다.
import torch.distributed as dist # Initialize with SMDDP import smdistributed.dataparallel.torch.torch_smddp dist.init_process_group(backend="smddp") # Replacing "nccl" # Initialize with SMP import torch.sagemaker as tsm tsm.init()
용 SageMaker 프레임워크 컨테이너