Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Note di rilascio per la libreria di parallelismo dei SageMaker modelli
Consultate le seguenti note di rilascio per tenere traccia degli ultimi aggiornamenti per la libreria SageMaker Model Parallelism (SMP). Se avete ulteriori domande sulla libreria SMP, contattate il team di assistenza SMP all'indirizzo. sm-model-parallel-feedback@amazon.com
La libreria di SageMaker parallelismo dei modelli v2.4.0
Data: 20 giugno 2024
Aggiornamenti della libreria SMP
Correzioni di bug
-
È stato corretto un bug che causava forme di logit errate quando le etichette non venivano passate in avanti durante l'utilizzo del trasformatore SMP.
Aggiornamenti delle valute
-
È stato aggiunto il supporto per la PyTorch versione 2.3.1.
-
Aggiunto il supporto per Python v3.11.
-
Aggiunto il supporto per la libreria Hugging Face Transformers v4.40.1.
Deprecazioni
-
Supporto interrotto per Python v3.10.
-
Supporto interrotto per le versioni della libreria Hugging Face Transformers precedenti alla v4.40.1.
Altre modifiche
-
Inclusa una patch per attivare il salvataggio dei tensori deduplicati su livelli diversi. Per saperne di più, consulta il thread di discussione nel repository.
PyTorch GitHub
Problemi noti
-
È noto che la perdita potrebbe aumentare e poi riprendere a un valore di perdita più elevato durante la messa a punto di Llama-3 70B con il parallelismo tensoriale.
Contenitore Docker SMP
Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se si utilizza la classe PyTorch estimator in SageMaker Python SDK e si specifica la configurazione di distribuzione per utilizzare SMP v2 SageMaker , preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.224.0 o successiva.
Aggiornamenti valutari
-
È stata aggiornata la libreria SMDDP alla versione 2.3.0.
-
È stata aggiornata la libreria NCCL alla versione 2.21.5.
-
È stato aggiornato il software EFA alla versione 1.32.0.
Deprecazioni
-
Interrotta l'installazione della libreria Torch Distributed Experimental (TorchDistX
).
Dettagli container
-
Contenitore SMP Docker per v2.3.1 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
-
Pacchetti preinstallati
-
La libreria SMP v2.4.0
-
La libreria SMDDP v2.3.0
-
CUDNN v8.9.7.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Hugging Face Transformers v4.40.1
-
Libreria Hugging Face Datasets v2.19.0
-
EFA v1.32.0
-
NCCL versione 2.21.5
-
Canale SMP Conda
Il seguente bucket S3 è il canale Conda pubblico della libreria SMP ospitata dal team di assistenza SMP. Se desideri installare la libreria SMP v2 in un ambiente di risorse di calcolo altamente personalizzabili come i SageMaker HyperPod cluster, usa questo canale Conda per installare correttamente la libreria SMP.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
La libreria di SageMaker parallelismo dei modelli v2.3.1
Data: 9 maggio 2024
Correzioni di bug
-
È stato risolto un
ImportError
problema relativo all'utilizzo dimoe_load_balancing=balanced
in torch.sagemaker.moe.moe_config.MoEConfig for Expert Parallelism. -
È stato risolto un problema di ottimizzazione per cui la torch.sagemaker.transform chiamata veniva generata quando era abilitata.
KeyError
load_state_dict_from_rank0
-
È stato corretto un errore out-of-memory (OOM) che si verificava durante il caricamento di modelli Mixture of Experts (MoE) di grandi dimensioni, come Mixtral 8x22B, per la messa a punto.
Contenitore Docker SMP
Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Questa versione incorpora le suddette correzioni di bug nella seguente immagine SMP Docker.
-
Contenitore SMP Docker per v2.2.0 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
La SageMaker libreria di parallelismo dei modelli v2.3.0
Data: 11 aprile 2024
Nuove funzionalità
-
È stata aggiunta una nuova funzionalità di base, il parallelismo esperto, per supportare i modelli di trasformatori Mixture of Experts. Per ulteriori informazioni, consulta Parallelismo esperto.
Contenitore SMP Docker
Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se si utilizza la classe PyTorch estimator in SageMaker Python SDK e si specifica la configurazione di distribuzione per utilizzare SMP v2 SageMaker , preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.214.4 o successiva.
-
Contenitore SMP Docker per v2.2.0 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121-
Pacchetti preinstallati in questo contenitore Docker
-
La libreria SMDDP v2.2.0
-
CUDNN v8.9.5.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Hugging Face Transformers v4.37.1
-
Libreria Hugging Face Datasets v2.16.1
-
Megatron-core 0.5.0
-
EFA v1.30.0
-
NCCL versione 2.19.4
-
-
La libreria di parallelismo dei modelli v2.2.0 SageMaker
Data: 7 marzo 2024
Nuove funzionalità
-
È stato aggiunto il supporto per l'addestramento FP8 dei seguenti modelli di trasformatori Hugging Face su istanze P5 con integrazione Transformer Engine:
-
GPT-Neox
-
Llama 2
-
Correzioni di bug
-
Risolto un bug per cui non era garantito che i tensori fossero contigui prima della chiamata
AllGather
collettiva durante l'addestramento sul parallelismo tensoriale.
Aggiornamenti valutari
-
È stato aggiunto il supporto per la PyTorch versione 2.2.0.
-
È stata aggiornata la libreria SMDDP alla versione 2.2.0.
-
È stata aggiornata la libreria alla versione 2.3.3. FlashAttention
-
È stata aggiornata la libreria NCCL alla versione 2.19.4.
Deprecazione
-
Supporto interrotto per le versioni di Transformer Engine precedenti alla v1.2.0.
Problemi noti
-
La Offload di attivazione funzionalità SMP al momento non funziona. Utilizzate invece l'offload PyTorch di attivazione nativo.
Altre modifiche
-
È stata inclusa una patch per correggere la regressione delle prestazioni discussa nel thread del problema all'indirizzo https://github.com/pytorch/pytorch/issues/117748
nel PyTorch GitHub repository.
Contenitore SMP Docker
Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se si utilizza la classe PyTorch estimator in SageMaker Python SDK e si specifica la configurazione di distribuzione per utilizzare SMP v2 SageMaker , preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.212.0 o successiva.
-
Contenitore SMP Docker per v2.2.0 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121-
Disponibile per istanze P4d, P4de e P5
-
Pacchetti preinstallati in questo contenitore Docker
-
La libreria SMDDP v2.2.0
-
CUDNN v8.9.5.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Hugging Face Transformers v4.37.1
-
Libreria Hugging Face Datasets v2.16.1
-
EFA v1.30.0
-
NCCL versione 2.19.4
-
-
La libreria di parallelismo dei modelli v2.1.0 SageMaker
Data: 6 febbraio 2024
Aggiornamenti valutari
-
È stato aggiunto il supporto per la PyTorch versione 2.1.2.
Deprecazione
-
Supporto interrotto per Hugging Face Transformers v4.31.0.
Problemi noti
-
Viene scoperto un problema a causa della divergenza del modello Hugging Face Llama 2
attn_implementation=flash_attention_2
con FSDP. Per riferimento, consulta il ticket di emissione nel repositoryHugging Face Transformers. GitHub Per evitare il problema della divergenza, usa. attn_implementation=sdpa
In alternativa, utilizzate l'implementazione del modello di trasformatore SMP configurando.use_smp_implementation=True
Contenitore Docker SMP
Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se si utilizza la classe PyTorch estimator in SageMaker Python SDK e si specifica la configurazione di distribuzione per utilizzare SMP v2 SageMaker , preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.207.0 o successiva.
-
Contenitore SMP Docker per v2.1.2 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121-
Disponibile per istanze P4d, P4de e P5
-
Pacchetti preinstallati in questo contenitore Docker
-
La libreria SMDDP v2.1.0
-
CUDNN v8.9.5.29
-
FlashAttention v2.3.3
-
TransformerEngine v1.2.1
-
Hugging Face Transformers v4.37.1
-
Libreria Hugging Face Datasets v2.16.1
-
EFA v1.30.0
-
-
Canale SMP Conda
Il seguente bucket S3 è un canale Conda pubblico ospitato dal team di assistenza SMP. Se desideri installare la libreria SMP v2 in un ambiente di risorse di calcolo altamente personalizzabili come SageMaker HyperPod i cluster, usa questo canale Conda per installare correttamente la libreria SMP.
-
https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/
La libreria di SageMaker parallelismo dei modelli v2.0.0
Data: 19 dicembre 2023
Nuove funzionalità
È stata rilasciata la libreria SageMaker Model Parallelism (SMP) v2.0.0 con le seguenti nuove offerte.
-
Un nuovo
torch.sagemaker
pacchetto, completamente rinnovato rispetto al pacchetto precedente di SMP v1.x.smdistributed.modelparallel.torch
-
Support per PyTorch 2.0.1.
-
Support per PyTorch FSDP.
-
Support sia per la SageMaker formazione che per SageMaker HyperPod.
Modifiche rivoluzionarie
-
SMP v2 ha completamente rinnovato le API e fornisce il pacchetto.
torch.sagemaker
Per lo più, è sufficiente inizializzare con iltorch.sagemaker.init()
modulo e passare i parametri di configurazione parallela del modello. Con questo nuovo pacchetto, è possibile semplificare in modo significativo le modifiche al codice nello script di addestramento. Per ulteriori informazioni sull'adattamento dello script di addestramento all'uso di SMP v2, consulta. Inizia con la libreria di parallelismo dei SageMaker modelli v2 -
Se hai utilizzato SMP v1 per addestrare i modelli Hugging Face Transformer e desideri riutilizzare i modelli in SMP v2, consulta. Aggiornamento da SMP v1 a SMP v2
-
Per la formazione su PyTorch FSDP, dovresti usare SMP v2.
Problemi noti
-
Il checkpoint di attivazione attualmente funziona solo con le seguenti politiche di wrapping con FSDP.
-
auto_wrap_policy = functools.partial(transformer_auto_wrap_policy, ...)
-
-
Per utilizzarloOffload di attivazione, il tipo di checkpoint di attivazione FSDP deve essere REENTRANT.
-
Quando si esegue con tensor parallel abilitato con lo sharded data parallel degree impostato su
1
, è necessario utilizzare.backend = nccl
L'opzionesmddp
backend non è supportata in questo scenario. -
Transformer Engine
deve essere utilizzato PyTorch con la libreria SMP anche quando non si utilizza il parallelismo tensoriale.
Altre modifiche
-
A partire da questa versione, la documentazione per la libreria di parallelismo dei SageMaker modelli è completamente disponibile in questa Amazon SageMaker Developer Guide. A favore di questa guida completa per gli sviluppatori per SMP v2 contenuta nell'Amazon SageMaker Developer Guide, il riferimento aggiuntivo per SMP v1.x
nella documentazione di SageMaker Python SDK è obsoleto. Se hai ancora bisogno della documentazione per SMP v1.x, la guida per sviluppatori per SMP v1.x è disponibile all'indirizzo Libreria di parallelismo dei SageMaker modelli (archiviata) v1.x e il riferimento alla libreria SMP Python v1.x è disponibile nella documentazione di Python SDK v2.199.0. SageMaker
Deprecazioni
-
Supporto interrotto per. TensorFlow
-
Non è disponibile il supporto per il parallelismo delle pipeline in SMP v2.
-
Non c'è supporto per la DeepSpeed libreria a favore dell'FSDP nativo. PyTorch
Contenitore Docker SMP
Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se si utilizza la classe PyTorch estimator in SageMaker Python SDK e si specifica la configurazione di distribuzione per utilizzare SMP v2 SageMaker , preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.207.0 o successiva.
-
Contenitore SMP Docker per v2.0.1 con CUDA v12.1 PyTorch
658645717510.dkr.ecr.
us-west-2
.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121