As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Notas de lançamento do Amazon SageMaker Training Compiler
Importante
A Amazon Web Services (AWS) anuncia que não haverá novos lançamentos ou versões do SageMaker Training Compiler. Você pode continuar a utilizar o SageMaker Training Compiler por meio dos AWS Deep Learning Containers (DLCs) existentes para SageMaker treinamento. É importante observar que, embora os DLCs existentes permaneçam acessíveis, eles não receberão mais patches ou atualizações AWS, de acordo com a Política de Suporte do AWS Deep Learning Containers Framework.
Consulte as notas de lançamento a seguir para acompanhar as atualizações mais recentes do Amazon SageMaker Training Compiler.
SageMaker Notas de lançamento do Training Compiler: 13 de fevereiro de 2023
Atualizações de moeda
Suporte adicionado para PyTorch v1.13.1
Correções de bugs
-
Corrigido um problema de condição de corrida na GPU que estava causando perda de NAN em alguns modelos, como os modelos de transformador de visão (ViT).
Outras alterações:
-
SageMaker O Training Compiler melhora o desempenho ao permitir que PyTorch /XLA substitua automaticamente os otimizadores (como SGD, Adam, AdamW) em
torch.optim
outransformers.optimization
com as versões sem sincronização deles (como,,).torch_xla.amp.syncfree
torch_xla.amp.syncfree.SGD
torch_xla.amp.syncfree.Adam
torch_xla.amp.syncfree.AdamW
Você não precisa alterar as linhas de código nas quais define otimizadores em seu script de treinamento.
Migração para contêineres de AWS Deep Learning
Essa versão foi aprovada no teste de benchmark e foi migrada para o seguinte contêiner de aprendizado AWS profundo:
-
PyTorch v1.13.1
763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-trcomp-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker
Para encontrar uma lista completa dos contêineres pré-criados com o Amazon SageMaker Training Compiler, consulte. Estruturas suportadas Regiões da AWS, tipos de instância e modelos testados
SageMaker Notas de lançamento do Training Compiler: 9 de janeiro de 2023
Alterações significativas
-
tf.keras.optimizers.Optimizer
aponta para um novo otimizador na TensorFlow versão 2.11.0 e versões posteriores. Os otimizadores antigos foram movidos paratf.keras.optimizers.legacy
. Você pode encontrar uma falha no trabalho devido à alteração significativa ao fazer o seguinte.-
Carregar pontos de verificação de um otimizador antigo. Recomendamos que você mude para usar os otimizadores legados.
-
Use TensorFlow v1. Recomendamos que você migre para a TensorFlow v2 ou mude para os otimizadores legados se precisar continuar usando a v1. TensorFlow
Para obter uma lista mais detalhada das alterações significativas das alterações do otimizador, consulte as notas de lançamento oficiais da TensorFlow v2.11.0
no repositório. TensorFlow GitHub -
Migração para contêineres de AWS Deep Learning
Essa versão foi aprovada no teste de benchmark e foi migrada para o seguinte contêiner de aprendizado AWS profundo:
-
TensorFlow v2.11.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.11.0-gpu-py39-cu112-ubuntu20.04-sagemakerPara encontrar uma lista completa dos contêineres pré-criados com o Amazon SageMaker Training Compiler, consulte. Estruturas suportadas Regiões da AWS, tipos de instância e modelos testados
SageMaker Notas de lançamento do Training Compiler: 8 de dezembro de 2022
Correções de bugs
-
Foi corrigida a velocidade dos trabalhos de PyTorch treinamento a partir da PyTorch versão 1.12 para garantir que não houvesse discrepância na inicialização do modelo em diferentes processos. Veja também PyTorchReprodutibilidade
.
Problemas conhecidos
-
O uso indevido das APIs PyTorch /XLA nos transformadores de visão da Hugging Face pode levar a problemas de convergência.
Outras alterações
-
Ao usar a
Trainer
classe Hugging Face Transformers, certifique-se de usar SyncFree otimizadores definindo o argumento como.optim
adamw_torch_xla
Para ter mais informações, consulte Modelos de linguagem grandes usando a classe Trainer de Hugging Face Transformers. Veja também Otimizadorna documentação do Hugging Face Transformers.
Migração para contêineres de AWS Deep Learning
Essa versão foi aprovada no teste de benchmark e foi migrada para o seguinte contêiner de aprendizado AWS profundo:
-
PyTorch v1.12.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-trcomp-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemakerPara encontrar uma lista completa dos contêineres pré-criados com o Amazon SageMaker Training Compiler, consulte. Estruturas suportadas Regiões da AWS, tipos de instância e modelos testados
SageMaker Notas de lançamento do Training Compiler: 4 de outubro de 2022
Atualizações de moeda
-
Foi adicionado suporte para TensorFlow v2.10.0.
Outras alterações
-
Foram adicionados modelos de PNL Hugging Face usando a biblioteca Transformers aos testes de estrutura. TensorFlow Para encontrar os modelos de transformadores testados, consulte Modelos testados.
Migração para contêineres de AWS Deep Learning
Essa versão foi aprovada no teste de benchmark e foi migrada para o seguinte contêiner de aprendizado AWS profundo:
-
TensorFlow v2.10.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.10.0-gpu-py39-cu112-ubuntu20.04-sagemakerPara encontrar uma lista completa dos contêineres pré-criados com o Amazon SageMaker Training Compiler, consulte. Estruturas suportadas Regiões da AWS, tipos de instância e modelos testados
SageMaker Notas de lançamento do Training Compiler: 1º de setembro de 2022
Atualizações de moeda
-
Foi adicionado suporte para Hugging Face Transformers v4.21.1 com v1.11.0. PyTorch
Melhorias
-
Implementou um novo mecanismo de lançamento de treinamento distribuído para ativar o SageMaker Training Compiler para modelos Hugging Face Transformer com. PyTorch Para saber mais, consulte Executar trabalhos de PyTorch treinamento com o SageMaker Training Compiler for Distributed Training.
-
Integrado com o EFA para melhorar a comunicação coletiva no treinamento distribuído.
-
Foi adicionado suporte para instâncias G5 para trabalhos PyTorch de treinamento. Para ter mais informações, consulte Estruturas suportadas Regiões da AWS, tipos de instância e modelos testados.
Migração para contêineres de AWS Deep Learning
Essa versão foi aprovada no teste de benchmark e foi migrada para o seguinte contêiner de aprendizado AWS profundo:
-
HuggingFace v4.21.1 com v1.11.0 PyTorch
763104351884.dkr.ecr.us-west-2.amazonaws.com/huggingface-pytorch-trcomp-training:1.11.0-transformers4.21.1-gpu-py38-cu113-ubuntu20.04
Para encontrar uma lista completa dos contêineres pré-criados com o Amazon SageMaker Training Compiler, consulte. Estruturas suportadas Regiões da AWS, tipos de instância e modelos testados
SageMaker Notas de lançamento do Training Compiler: 14 de junho de 2022
Novos atributos
-
Foi adicionado suporte para TensorFlow v2.9.1. SageMaker O Training Compiler oferece suporte total aos TensorFlow módulos de compilação (
tf.*
) e aos módulos TensorFlow Keras ().tf.keras.*
-
Foi adicionado suporte para contêineres personalizados criados com a extensão do AWS Deep Learning Containers for TensorFlow. Para obter mais informações, consulte Habilitar o SageMaker Training Compiler usando o SageMaker Python SDK e o SageMaker Extending Framework Deep Learning Containers.
-
Foi adicionado suporte para instâncias G5 para trabalhos TensorFlow de treinamento.
Migração para contêineres de AWS Deep Learning
Essa versão foi aprovada no teste de benchmark e foi migrada para o seguinte contêiner de aprendizado AWS profundo:
-
TensorFlow 2.9.1
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemakerPara encontrar uma lista completa dos contêineres pré-criados com o Amazon SageMaker Training Compiler, consulte. Estruturas suportadas Regiões da AWS, tipos de instância e modelos testados
SageMaker Notas de lançamento do Training Compiler: 26 de abril de 2022
Melhorias
-
Foi adicionado suporte para todos os Regiões da AWS locais em que os AWS Deep Learning Containers
estão em serviço, exceto nas regiões da China.
SageMaker Notas de lançamento do Training Compiler: 12 de abril de 2022
Atualizações de moeda
-
Foi adicionado suporte para Hugging Face Transformers v4.17.0 com v2.6.3 e v1.10.2. TensorFlow PyTorch
SageMaker Notas de lançamento do Training Compiler: 21 de fevereiro de 2022
Melhorias
-
Conclusão do teste de benchmark e confirmada a aceleração do treinamento nos tipos de instância
ml.g4dn
. Para encontrar uma lista completa das instânciasml
testadas, consulte Tipos de instâncias compatíveis.
SageMaker Notas de lançamento do Training Compiler: 01 de dezembro de 2021
Novos atributos
Lançou o Amazon SageMaker Training Compiler no AWS re:Invent 2021.
Migração para contêineres de AWS Deep Learning
O Amazon SageMaker Training Compiler passou no teste de benchmark e foi migrado para o AWS Deep Learning Containers. Para encontrar uma lista completa dos contêineres pré-criados com o Amazon SageMaker Training Compiler, consulte. Estruturas suportadas Regiões da AWS, tipos de instância e modelos testados