Note di rilascio per la libreria di parallelismo dei SageMaker modelli - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Note di rilascio per la libreria di parallelismo dei SageMaker modelli

Consultate le seguenti note di rilascio per tenere traccia degli ultimi aggiornamenti per la libreria SageMaker Model Parallelism (SMP). Se avete ulteriori domande sulla libreria SMP, contattate il team di assistenza SMP all'indirizzo. sm-model-parallel-feedback@amazon.com

La libreria di SageMaker parallelismo dei modelli v2.4.0

Data: 20 giugno 2024

Aggiornamenti della libreria SMP

Correzioni di bug

  • È stato corretto un bug che causava forme di logit errate quando le etichette non venivano passate in avanti durante l'utilizzo del trasformatore SMP.

Aggiornamenti delle valute

  • È stato aggiunto il supporto per la PyTorch versione 2.3.1.

  • Aggiunto il supporto per Python v3.11.

  • Aggiunto il supporto per la libreria Hugging Face Transformers v4.40.1.

Deprecazioni

  • Supporto interrotto per Python v3.10.

  • Supporto interrotto per le versioni della libreria Hugging Face Transformers precedenti alla v4.40.1.

Altre modifiche

Problemi noti

  • È noto che la perdita potrebbe aumentare e poi riprendere a un valore di perdita più elevato durante la messa a punto di Llama-3 70B con il parallelismo tensoriale.

Contenitore Docker SMP

Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se si utilizza la classe PyTorch estimator in SageMaker Python SDK e si specifica la configurazione di distribuzione per utilizzare SMP v2 SageMaker , preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.224.0 o successiva.

Aggiornamenti valutari

  • È stata aggiornata la libreria SMDDP alla versione 2.3.0.

  • È stata aggiornata la libreria NCCL alla versione 2.21.5.

  • È stato aggiornato il software EFA alla versione 1.32.0.

Deprecazioni

Dettagli container

  • Contenitore SMP Docker per v2.3.1 con CUDA v12.1 PyTorch

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.3.1-gpu-py311-cu121
  • Pacchetti preinstallati

    • La libreria SMP v2.4.0

    • La libreria SMDDP v2.3.0

    • CUDNN v8.9.7.29

    • FlashAttention v2.3.3

    • TransformerEngine v1.2.1

    • Hugging Face Transformers v4.40.1

    • Libreria Hugging Face Datasets v2.19.0

    • EFA v1.32.0

    • NCCL versione 2.21.5

Canale SMP Conda

Il seguente bucket S3 è il canale Conda pubblico della libreria SMP ospitata dal team di assistenza SMP. Se desideri installare la libreria SMP v2 in un ambiente di risorse di calcolo altamente personalizzabili come i SageMaker HyperPod cluster, usa questo canale Conda per installare correttamente la libreria SMP.

  • https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Per ulteriori informazioni sui canali Conda in generale, vedere Canali nella documentazione di Conda.

La libreria di SageMaker parallelismo dei modelli v2.3.1

Data: 9 maggio 2024

Correzioni di bug

  • È stato risolto un ImportError problema relativo all'utilizzo di moe_load_balancing=balanced in torch.sagemaker.moe.moe_config.MoEConfig for Expert Parallelism.

  • È stato risolto un problema di ottimizzazione per cui la torch.sagemaker.transform chiamata veniva generata quando era abilitata. KeyError load_state_dict_from_rank0

  • È stato corretto un errore out-of-memory (OOM) che si verificava durante il caricamento di modelli Mixture of Experts (MoE) di grandi dimensioni, come Mixtral 8x22B, per la messa a punto.

Contenitore Docker SMP

Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Questa versione incorpora le suddette correzioni di bug nella seguente immagine SMP Docker.

  • Contenitore SMP Docker per v2.2.0 con CUDA v12.1 PyTorch

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121

La SageMaker libreria di parallelismo dei modelli v2.3.0

Data: 11 aprile 2024

Nuove funzionalità

  • È stata aggiunta una nuova funzionalità di base, il parallelismo esperto, per supportare i modelli di trasformatori Mixture of Experts. Per ulteriori informazioni, consulta Parallelismo esperto.

Contenitore SMP Docker

Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se si utilizza la classe PyTorch estimator in SageMaker Python SDK e si specifica la configurazione di distribuzione per utilizzare SMP v2 SageMaker , preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.214.4 o successiva.

  • Contenitore SMP Docker per v2.2.0 con CUDA v12.1 PyTorch

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
    • Pacchetti preinstallati in questo contenitore Docker

      • La libreria SMDDP v2.2.0

      • CUDNN v8.9.5.29

      • FlashAttention v2.3.3

      • TransformerEngine v1.2.1

      • Hugging Face Transformers v4.37.1

      • Libreria Hugging Face Datasets v2.16.1

      • Megatron-core 0.5.0

      • EFA v1.30.0

      • NCCL versione 2.19.4

La libreria di parallelismo dei modelli v2.2.0 SageMaker

Data: 7 marzo 2024

Nuove funzionalità

  • È stato aggiunto il supporto per l'addestramento FP8 dei seguenti modelli di trasformatori Hugging Face su istanze P5 con integrazione Transformer Engine:

    • GPT-Neox

    • Llama 2

Correzioni di bug

  • Risolto un bug per cui non era garantito che i tensori fossero contigui prima della chiamata AllGather collettiva durante l'addestramento sul parallelismo tensoriale.

Aggiornamenti valutari

  • È stato aggiunto il supporto per la PyTorch versione 2.2.0.

  • È stata aggiornata la libreria SMDDP alla versione 2.2.0.

  • È stata aggiornata la libreria alla versione 2.3.3. FlashAttention

  • È stata aggiornata la libreria NCCL alla versione 2.19.4.

Deprecazione

  • Supporto interrotto per le versioni di Transformer Engine precedenti alla v1.2.0.

Problemi noti

  • La Offload di attivazione funzionalità SMP al momento non funziona. Utilizzate invece l'offload PyTorch di attivazione nativo.

Altre modifiche

Contenitore SMP Docker

Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se si utilizza la classe PyTorch estimator in SageMaker Python SDK e si specifica la configurazione di distribuzione per utilizzare SMP v2 SageMaker , preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.212.0 o successiva.

  • Contenitore SMP Docker per v2.2.0 con CUDA v12.1 PyTorch

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
    • Disponibile per istanze P4d, P4de e P5

    • Pacchetti preinstallati in questo contenitore Docker

      • La libreria SMDDP v2.2.0

      • CUDNN v8.9.5.29

      • FlashAttention v2.3.3

      • TransformerEngine v1.2.1

      • Hugging Face Transformers v4.37.1

      • Libreria Hugging Face Datasets v2.16.1

      • EFA v1.30.0

      • NCCL versione 2.19.4

La libreria di parallelismo dei modelli v2.1.0 SageMaker

Data: 6 febbraio 2024

Aggiornamenti valutari

  • È stato aggiunto il supporto per la PyTorch versione 2.1.2.

Deprecazione

  • Supporto interrotto per Hugging Face Transformers v4.31.0.

Problemi noti

  • Viene scoperto un problema a causa della divergenza del modello Hugging Face Llama 2 attn_implementation=flash_attention_2 con FSDP. Per riferimento, consulta il ticket di emissione nel repository Hugging Face Transformers. GitHub Per evitare il problema della divergenza, usa. attn_implementation=sdpa In alternativa, utilizzate l'implementazione del modello di trasformatore SMP configurando. use_smp_implementation=True

Contenitore Docker SMP

Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se si utilizza la classe PyTorch estimator in SageMaker Python SDK e si specifica la configurazione di distribuzione per utilizzare SMP v2 SageMaker , preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.207.0 o successiva.

  • Contenitore SMP Docker per v2.1.2 con CUDA v12.1 PyTorch

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
    • Disponibile per istanze P4d, P4de e P5

    • Pacchetti preinstallati in questo contenitore Docker

      • La libreria SMDDP v2.1.0

      • CUDNN v8.9.5.29

      • FlashAttention v2.3.3

      • TransformerEngine v1.2.1

      • Hugging Face Transformers v4.37.1

      • Libreria Hugging Face Datasets v2.16.1

      • EFA v1.30.0

Canale SMP Conda

Il seguente bucket S3 è un canale Conda pubblico ospitato dal team di assistenza SMP. Se desideri installare la libreria SMP v2 in un ambiente di risorse di calcolo altamente personalizzabili come SageMaker HyperPod i cluster, usa questo canale Conda per installare correttamente la libreria SMP.

  • https://sagemaker-distributed-model-parallel.s3.us-west-2.amazonaws.com/smp-v2/

Per ulteriori informazioni sui canali Conda in generale, vedere Canali nella documentazione di Conda.

La libreria di SageMaker parallelismo dei modelli v2.0.0

Data: 19 dicembre 2023

Nuove funzionalità

È stata rilasciata la libreria SageMaker Model Parallelism (SMP) v2.0.0 con le seguenti nuove offerte.

Modifiche rivoluzionarie

  • SMP v2 ha completamente rinnovato le API e fornisce il pacchetto. torch.sagemaker Per lo più, è sufficiente inizializzare con il torch.sagemaker.init() modulo e passare i parametri di configurazione parallela del modello. Con questo nuovo pacchetto, è possibile semplificare in modo significativo le modifiche al codice nello script di addestramento. Per ulteriori informazioni sull'adattamento dello script di addestramento all'uso di SMP v2, consulta. Inizia con la libreria di parallelismo dei SageMaker modelli v2

  • Se hai utilizzato SMP v1 per addestrare i modelli Hugging Face Transformer e desideri riutilizzare i modelli in SMP v2, consulta. Aggiornamento da SMP v1 a SMP v2

  • Per la formazione su PyTorch FSDP, dovresti usare SMP v2.

Problemi noti

  • Il checkpoint di attivazione attualmente funziona solo con le seguenti politiche di wrapping con FSDP.

    • auto_wrap_policy = functools.partial(transformer_auto_wrap_policy, ...)

  • Per utilizzarloOffload di attivazione, il tipo di checkpoint di attivazione FSDP deve essere REENTRANT.

  • Quando si esegue con tensor parallel abilitato con lo sharded data parallel degree impostato su1, è necessario utilizzare. backend = nccl L'opzione smddp backend non è supportata in questo scenario.

  • Transformer Engine deve essere utilizzato PyTorch con la libreria SMP anche quando non si utilizza il parallelismo tensoriale.

Altre modifiche

Deprecazioni

  • Supporto interrotto per. TensorFlow

  • Non è disponibile il supporto per il parallelismo delle pipeline in SMP v2.

  • Non c'è supporto per la DeepSpeed libreria a favore dell'FSDP nativo. PyTorch

Contenitore Docker SMP

Il team della libreria SMP distribuisce i contenitori Docker in sostituzione dei contenitori del framework. SageMaker PyTorch Se si utilizza la classe PyTorch estimator in SageMaker Python SDK e si specifica la configurazione di distribuzione per utilizzare SMP v2 SageMaker , preleva automaticamente i contenitori SMP Docker. Per utilizzare questa versione di SMP v2, aggiorna il tuo SageMaker Python SDK alla versione 2.207.0 o successiva.

  • Contenitore SMP Docker per v2.0.1 con CUDA v12.1 PyTorch

    658645717510.dkr.ecr.us-west-2.amazonaws.com/smdistributed-modelparallel:2.0.1-gpu-py310-cu121