SMP v2.4.0 SMP v2.3.1 SMP v2.3.0 SMP v2.2.0 SMP v2.1.0 SMP v2.0.0

Note di rilascio per la libreria di parallelismo dei SageMaker modelli

Consultate le seguenti note di rilascio per tenere traccia degli ultimi aggiornamenti per la libreria SageMaker Model Parallelism (SMP). Se avete ulteriori domande sulla libreria SMP, contattate il team di assistenza SMP all'indirizzo. sm-model-parallel-feedback@amazon.com

La libreria di SageMaker parallelismo dei modelli v2.4.0

Data: 20 giugno 2024

Aggiornamenti della libreria SMP

Correzioni di bug

È stato corretto un bug che causava forme di logit errate quando le etichette non venivano passate in avanti durante l'utilizzo del trasformatore SMP.

Aggiornamenti delle valute

È stato aggiunto il supporto per la PyTorch versione 2.3.1.
Aggiunto il supporto per Python v3.11.
Aggiunto il supporto per la libreria Hugging Face Transformers v4.40.1.

Deprecazioni

Supporto interrotto per Python v3.10.
Supporto interrotto per le versioni della libreria Hugging Face Transformers precedenti alla v4.40.1.

Altre modifiche

Inclusa una patch per attivare il salvataggio dei tensori deduplicati su livelli diversi. Per saperne di più, consulta il thread di discussione nel repository. PyTorch GitHub

Problemi noti

È noto che la perdita potrebbe aumentare e poi riprendere a un valore di perdita più elevato durante la messa a punto di Llama-3 70B con il parallelismo tensoriale.

Contenitore Docker SMP

Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se si utilizza la classe PyTorch estimator in SageMaker Python SDK e si specifica la configurazione di distribuzione per utilizzare SMP v2 SageMaker , preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.224.0 o successiva.

Aggiornamenti valutari

È stata aggiornata la libreria SMDDP alla versione 2.3.0.
È stata aggiornata la libreria NCCL alla versione 2.21.5.
È stato aggiornato il software EFA alla versione 1.32.0.

Deprecazioni

Interrotta l'installazione della libreria Torch Distributed Experimental (TorchDistX).

Dettagli container

Contenitore SMP Docker per v2.3.1 con CUDA v12.1 PyTorch


658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121

Pacchetti preinstallati
- La libreria SMP v2.4.0
- La libreria SMDDP v2.3.0
- CUDNN v8.9.7.29
- FlashAttention v2.3.3
- TransformerEngine v1.2.1
- Hugging Face Transformers v4.40.1
- Libreria Hugging Face Datasets v2.19.0
- EFA v1.32.0
- NCCL versione 2.21.5

Canale SMP Conda

Il seguente bucket S3 è il canale Conda pubblico della libreria SMP ospitata dal team di assistenza SMP. Se desideri installare la libreria SMP v2 in un ambiente di risorse di calcolo altamente personalizzabili come i SageMaker HyperPod cluster, usa questo canale Conda per installare correttamente la libreria SMP.

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Per ulteriori informazioni sui canali Conda in generale, vedere Canali nella documentazione di Conda.

La libreria di SageMaker parallelismo dei modelli v2.3.1

Data: 9 maggio 2024

Correzioni di bug

È stato risolto un ImportError problema relativo all'utilizzo di moe_load_balancing=balanced in torch.sagemaker.moe.moe_config.MoEConfig for Expert Parallelism.
È stato risolto un problema di ottimizzazione per cui la torch.sagemaker.transform chiamata veniva generata quando era abilitata. KeyError load_state_dict_from_rank0
È stato corretto un errore out-of-memory (OOM) che si verificava durante il caricamento di modelli Mixture of Experts (MoE) di grandi dimensioni, come Mixtral 8x22B, per la messa a punto.

Contenitore Docker SMP

Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Questa versione incorpora le suddette correzioni di bug nella seguente immagine SMP Docker.

Contenitore SMP Docker per v2.2.0 con CUDA v12.1 PyTorch


658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121

La SageMaker libreria di parallelismo dei modelli v2.3.0

Data: 11 aprile 2024

Nuove funzionalità

È stata aggiunta una nuova funzionalità di base, il parallelismo esperto, per supportare i modelli di trasformatori Mixture of Experts. Per ulteriori informazioni, consulta Parallelismo esperto.

Contenitore SMP Docker

Contenitore SMP Docker per v2.2.0 con CUDA v12.1 PyTorch
```
658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
```
- Pacchetti preinstallati in questo contenitore Docker
  - La libreria SMDDP v2.2.0
  - CUDNN v8.9.5.29
  - FlashAttention v2.3.3
  - TransformerEngine v1.2.1
  - Hugging Face Transformers v4.37.1
  - Libreria Hugging Face Datasets v2.16.1
  - Megatron-core 0.5.0
  - EFA v1.30.0
  - NCCL versione 2.19.4

La libreria di parallelismo dei modelli v2.2.0 SageMaker

Data: 7 marzo 2024

Nuove funzionalità

È stato aggiunto il supporto per l'addestramento FP8 dei seguenti modelli di trasformatori Hugging Face su istanze P5 con integrazione Transformer Engine:
- GPT-Neox
- Llama 2

Correzioni di bug

Risolto un bug per cui non era garantito che i tensori fossero contigui prima della chiamata AllGather collettiva durante l'addestramento sul parallelismo tensoriale.

Aggiornamenti valutari

È stato aggiunto il supporto per la PyTorch versione 2.2.0.
È stata aggiornata la libreria SMDDP alla versione 2.2.0.
È stata aggiornata la libreria alla versione 2.3.3. FlashAttention
È stata aggiornata la libreria NCCL alla versione 2.19.4.

Deprecazione

Supporto interrotto per le versioni di Transformer Engine precedenti alla v1.2.0.

Problemi noti

La Offload di attivazione funzionalità SMP al momento non funziona. Utilizzate invece l'offload PyTorch di attivazione nativo.

Altre modifiche

È stata inclusa una patch per correggere la regressione delle prestazioni discussa nel thread del problema all'indirizzo https://github.com/pytorch/pytorch/issues/117748 nel PyTorch GitHub repository.

Contenitore SMP Docker

Contenitore SMP Docker per v2.2.0 con CUDA v12.1 PyTorch
```
658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
```
- Disponibile per istanze P4d, P4de e P5
- Pacchetti preinstallati in questo contenitore Docker
  - La libreria SMDDP v2.2.0
  - CUDNN v8.9.5.29
  - FlashAttention v2.3.3
  - TransformerEngine v1.2.1
  - Hugging Face Transformers v4.37.1
  - Libreria Hugging Face Datasets v2.16.1
  - EFA v1.30.0
  - NCCL versione 2.19.4

La libreria di parallelismo dei modelli v2.1.0 SageMaker

Data: 6 febbraio 2024

Aggiornamenti valutari

È stato aggiunto il supporto per la PyTorch versione 2.1.2.

Deprecazione

Supporto interrotto per Hugging Face Transformers v4.31.0.

Problemi noti

Viene scoperto un problema a causa della divergenza del modello Hugging Face Llama 2 attn_implementation=flash_attention_2 con FSDP. Per riferimento, consulta il ticket di emissione nel repository Hugging Face Transformers. GitHub Per evitare il problema della divergenza, usa. attn_implementation=sdpa In alternativa, utilizzate l'implementazione del modello di trasformatore SMP configurando. use_smp_implementation=True

Contenitore Docker SMP

Contenitore SMP Docker per v2.1.2 con CUDA v12.1 PyTorch
```
658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
```
- Disponibile per istanze P4d, P4de e P5
- Pacchetti preinstallati in questo contenitore Docker
  - La libreria SMDDP v2.1.0
  - CUDNN v8.9.5.29
  - FlashAttention v2.3.3
  - TransformerEngine v1.2.1
  - Hugging Face Transformers v4.37.1
  - Libreria Hugging Face Datasets v2.16.1
  - EFA v1.30.0

Canale SMP Conda

Il seguente bucket S3 è un canale Conda pubblico ospitato dal team di assistenza SMP. Se desideri installare la libreria SMP v2 in un ambiente di risorse di calcolo altamente personalizzabili come SageMaker HyperPod i cluster, usa questo canale Conda per installare correttamente la libreria SMP.

https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Per ulteriori informazioni sui canali Conda in generale, vedere Canali nella documentazione di Conda.

La libreria di SageMaker parallelismo dei modelli v2.0.0

Data: 19 dicembre 2023

Nuove funzionalità

È stata rilasciata la libreria SageMaker Model Parallelism (SMP) v2.0.0 con le seguenti nuove offerte.

Un nuovo torch.sagemaker pacchetto, completamente rinnovato rispetto al pacchetto precedente di SMP v1.x. smdistributed.modelparallel.torch
Support per PyTorch 2.0.1.
Support per PyTorch FSDP.
Implementazione del parallelismo Tensoriale mediante integrazione con la libreria Transformer Engine.
Support sia per la SageMaker formazione che per SageMaker HyperPod.

Modifiche rivoluzionarie

SMP v2 ha completamente rinnovato le API e fornisce il pacchetto. torch.sagemaker Per lo più, è sufficiente inizializzare con il torch.sagemaker.init() modulo e passare i parametri di configurazione parallela del modello. Con questo nuovo pacchetto, è possibile semplificare in modo significativo le modifiche al codice nello script di addestramento. Per ulteriori informazioni sull'adattamento dello script di addestramento all'uso di SMP v2, consulta. Inizia con la libreria di parallelismo dei SageMaker modelli v2
Se hai utilizzato SMP v1 per addestrare i modelli Hugging Face Transformer e desideri riutilizzare i modelli in SMP v2, consulta. Aggiornamento da SMP v1 a SMP v2
Per la formazione su PyTorch FSDP, dovresti usare SMP v2.

Problemi noti

Il checkpoint di attivazione attualmente funziona solo con le seguenti politiche di wrapping con FSDP.
- auto_wrap_policy = functools.partial(transformer_auto_wrap_policy, ...)
Per utilizzarlo Offload di attivazione, il tipo di checkpoint di attivazione FSDP deve essere REENTRANT.
Quando si esegue con tensor parallel abilitato con lo sharded data parallel degree impostato su1, è necessario utilizzare. backend = nccl L'opzione smddp backend non è supportata in questo scenario.
Transformer Engine deve essere utilizzato PyTorch con la libreria SMP anche quando non si utilizza il parallelismo tensoriale.

Altre modifiche

A partire da questa versione, la documentazione per la libreria di parallelismo dei SageMaker modelli è completamente disponibile in questa Amazon SageMaker Developer Guide. A favore di questa guida completa per gli sviluppatori per SMP v2 contenuta nell'Amazon SageMaker Developer Guide, il riferimento aggiuntivo per SMP v1.x nella documentazione di SageMaker Python SDK è obsoleto. Se hai ancora bisogno della documentazione per SMP v1.x, la guida per sviluppatori per SMP v1.x è disponibile all'indirizzo Libreria di parallelismo dei SageMaker modelli (archiviata) v1.x e il riferimento alla libreria SMP Python v1.x è disponibile nella documentazione di Python SDK v2.199.0. SageMaker

Deprecazioni

Supporto interrotto per. TensorFlow
Non è disponibile il supporto per il parallelismo delle pipeline in SMP v2.
Non c'è supporto per la DeepSpeed libreria a favore dell'FSDP nativo. PyTorch

Contenitore Docker SMP

Contenitore SMP Docker per v2.0.1 con CUDA v12.1 PyTorch


658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Riferimento SMP v2

libreria di parallelismo dei modelli (archiviata) v1.x SageMaker