Kompatibilität mit der SMDDP Bibliothek, optimiert für AWS Infrastruktur

Sie können die SageMaker Modellparallelismus-Bibliothek v2 (SMPv2) in Verbindung mit der Bibliothek für SageMaker verteilte Datenparallelität (SMDDP) verwenden, die den AllGather kollektiven Kommunikationsbetrieb optimiert für AWS Infrastruktur. In verteilten Schulungen sind kollektive Kommunikationsoperationen darauf ausgelegt, mehrere GPU Mitarbeiter zu synchronisieren und Informationen zwischen ihnen auszutauschen. AllGatherist eine der wichtigsten kollektiven Kommunikationsoperationen, die typischerweise bei der Parallelität von Sharded Data eingesetzt werden. Weitere Informationen zu dieser SMDDP AllGather Operation finden Sie unter Die SMDDP-AllGatherKollektiver Vorgang Optimierung solcher kollektiver Kommunikationsoperationen würde direkt zu einem schnelleren end-to-end Training beitragen, ohne dass Nebenwirkungen auf die Konvergenz auftreten.

Anmerkung

Die SMDDP Bibliothek unterstützt P4- und P4de-Instanzen (siehe auch Unterstützte Frameworks AWS-Regionen und Instanztypen nach der SMDDP Bibliothek).

Die SMDDP Bibliothek lässt sich nativ PyTorch über die Prozessgruppenebene integrieren. Um die SMDDP Bibliothek zu verwenden, müssen Sie Ihrem Trainingsskript nur zwei Codezeilen hinzufügen. Es unterstützt alle Trainingsframeworks wie SageMaker Model Parallelism Library PyTorch FSDP, und. DeepSpeed

Um die AllGather Funktion zu aktivieren SMDDP und zu verwenden, müssen Sie Ihrem Trainingsskript als Teil von zwei Codezeilen hinzufügen. Schritt 1: Passen Sie Ihr PyTorch FSDP-Trainingsskript an Beachten Sie, dass Sie PyTorch Distributed zuerst mit dem SMDDP Backend initialisieren und dann die SMP Initialisierung ausführen müssen.


import torch.distributed as dist

# Initialize with SMDDP
import smdistributed.dataparallel.torch.torch_smddp
dist.init_process_group(backend="smddp") # Replacing "nccl"

 # Initialize with SMP
import torch.sagemaker as tsm
tsm.init()

SageMaker Framework-Container für PyTorch (siehe auch Unterstützte Frameworks und AWS-Regionen von SMP v2 und Unterstützte Frameworks AWS-Regionen und Instanztypen von der SMDDP Bibliothek) sind mit der Binärdatei und der SMP Binärdatei vorkonfiguriert. SMDDP Weitere Informationen zur SMDDP Bibliothek finden Sie unterFühren Sie verteilte Schulungen mit der Bibliothek für SageMaker verteilte Datenparallelität durch.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Kontext-Parallelität

Gemischtes Präzisionstraining