Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Esegui corsi di formazione distribuiti con la libreria di parallelismo dei dati SageMaker distribuiti
La libreria SageMaker Distributed Data Parallelism (SMDDP) estende le funzionalità di SageMaker formazione sui modelli di deep learning con un'efficienza di scalabilità quasi lineare fornendo implementazioni di operazioni di comunicazione collettiva ottimizzate per l'infrastruttura. AWS
Quando si addestrano modelli di machine learning (ML) di grandi dimensioni, come modelli di linguaggio di grandi dimensioni (LLM) e modelli di diffusione, su un enorme set di dati di addestramento, i professionisti del machine learning utilizzano cluster di acceleratori e tecniche di formazione distribuite per ridurre i tempi di addestramento o risolvere i vincoli di memoria per i modelli che non possono entrare in ogni memoria GPU. I professionisti del machine learning spesso iniziano con più acceleratori su una singola istanza e poi passano a cluster di istanze man mano che aumentano i requisiti del carico di lavoro. Con l'aumentare delle dimensioni del cluster, aumenta anche il sovraccarico di comunicazione tra più nodi, il che porta a un calo delle prestazioni computazionali complessive.
Per risolvere tali problemi di sovraccarico e di memoria, la libreria SMDDP offre quanto segue.
-
La libreria SMDDP ottimizza i lavori di formazione per l'infrastruttura di AWS rete e la topologia delle istanze Amazon SageMaker ML.
-
La libreria SMDDP migliora la comunicazione tra i nodi con implementazioni
AllReduce
e operazioni di comunicazioneAllGather
collettiva ottimizzate per l'infrastruttura. AWS
Per ulteriori informazioni sui dettagli delle offerte della libreria SMDDP, consulta. Introduzione alla libreria di parallelismo dei dati SageMaker distribuiti
Per ulteriori informazioni sulla formazione con la strategia parallela a modelli offerta da SageMaker, vedere anche. Libreria di parallelismo dei SageMaker modelli (archiviata) v1.x
Argomenti
- Introduzione alla libreria di parallelismo dei dati SageMaker distribuiti
- Framework e tipi di Regioni AWS istanze supportati
- Come eseguire un processo di formazione distribuito con la libreria di parallelismo dei dati SageMaker distribuiti
- Esempi di librerie di parallelismo SageMaker dei dati di Amazon
- Suggerimenti di configurazione per la libreria di parallelismo dei dati SageMaker distribuiti
- Domande frequenti sulla libreria di parallelismo dei dati SageMaker distribuiti di Amazon
- Risoluzione dei problemi relativi alla formazione distribuita in Amazon SageMaker
- SageMaker note di rilascio della libreria di parallelismo dei dati