Esegui corsi di formazione distribuiti con la libreria di parallelismo dei dati SageMaker distribuiti - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Esegui corsi di formazione distribuiti con la libreria di parallelismo dei dati SageMaker distribuiti

La libreria SageMaker Distributed Data Parallelism (SMDDP) estende le funzionalità di SageMaker formazione sui modelli di deep learning con un'efficienza di scalabilità quasi lineare fornendo implementazioni di operazioni di comunicazione collettiva ottimizzate per l'infrastruttura. AWS

Quando si addestrano modelli di machine learning (ML) di grandi dimensioni, come modelli di linguaggio di grandi dimensioni (LLM) e modelli di diffusione, su un enorme set di dati di addestramento, i professionisti del machine learning utilizzano cluster di acceleratori e tecniche di formazione distribuite per ridurre i tempi di addestramento o risolvere i vincoli di memoria per i modelli che non possono entrare in ogni memoria GPU. I professionisti del machine learning spesso iniziano con più acceleratori su una singola istanza e poi passano a cluster di istanze man mano che aumentano i requisiti del carico di lavoro. Con l'aumentare delle dimensioni del cluster, aumenta anche il sovraccarico di comunicazione tra più nodi, il che porta a un calo delle prestazioni computazionali complessive.

Per risolvere tali problemi di sovraccarico e di memoria, la libreria SMDDP offre quanto segue.

  • La libreria SMDDP ottimizza i lavori di formazione per l'infrastruttura di AWS rete e la topologia delle istanze Amazon SageMaker ML.

  • La libreria SMDDP migliora la comunicazione tra i nodi con implementazioni AllReduce e operazioni di comunicazione AllGather collettiva ottimizzate per l'infrastruttura. AWS

Per ulteriori informazioni sui dettagli delle offerte della libreria SMDDP, consulta. Introduzione alla libreria di parallelismo dei dati SageMaker distribuiti

Per ulteriori informazioni sulla formazione con la strategia parallela a modelli offerta da SageMaker, vedere anche. Libreria di parallelismo dei SageMaker modelli (archiviata) v1.x