本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker 培訓編譯器版本注
重要
Amazon Web Services(AWS)宣布將不會有新版本或 SageMaker 培訓編譯器版本。您可以透過現有的 AWS Deep Learning Containers (DLC) 進行 SageMaker 訓練,繼續使用 SageMaker 訓練編譯器。請務必注意,雖然現有的 DLC 仍可供存取,但根據 AWS Deep Learning Containers 架構 Support 政策 AWS,它們將不再從中接收修補程式或更新。
請參閱下列版本說明,以追蹤 Amazon SageMaker 訓練編譯器的最新更新。
SageMaker 訓練編譯器發行說明:2023 年 2 月 13 日
貨幣更新
增加了對 1.13.1 PyTorch 版的支持
錯誤修正
-
修正 GPU 上的競爭條件問題,此問題在某些模型 (例如視覺轉換器 (ViT) 模型中造成 NAN 損失。
其他變更
-
SageMaker 訓練編譯器可讓 PyTorch /XLA 自動覆寫最佳化工
transformers.optimization
具 (例如 SGD、Adam、AdamW),torch.optim
以改善效能torch_xla.amp.syncfree
(例如、、)。torch_xla.amp.syncfree.SGD
torch_xla.amp.syncfree.Adam
torch_xla.amp.syncfree.AdamW
您不需要變更在訓練指令碼中定義最佳化工具的程式碼行。
移轉至 AWS Deep Learning Containers
此版本已通過基準測試,並移轉至下列 AWS 深度學習容器:
-
PyTorch V1.13.1
763104351884.dkr.ecr.us-west-2.amazonaws.com/pytorch-trcomp-training:1.13.1-gpu-py39-cu117-ubuntu20.04-sagemaker
若要使用 Amazon SageMaker 訓練編譯器尋找預先建置容器的完整清單,請參閱支援的架構 AWS 區域、執行個體類型和測試模型。
SageMaker 訓練編譯器發行說明:2023 年 1 月 9 日
突破性變更
-
tf.keras.optimizers.Optimizer
指向 TensorFlow 2.11.0 及更高版本中的新優化器。舊的最佳化工具將移至tf.keras.optimizers.legacy
。執行下列動作時,可能會因為突破性變更遇到任務失敗。-
從舊的最佳化工具載入檢查點。我們建議您切換至使用舊版最佳化工具。
-
使用 TensorFlow 第 1 版。如果您需要繼續使用 TensorFlow v1,建議您移轉至 TensorFlow v2,或切換至舊版最佳化工具。
有關優化器更改中斷更改的更多詳細列表,請參閱存儲庫中的官方 TensorFlow v2.11.0 發行說明
。 TensorFlow GitHub -
移轉至 AWS Deep Learning Containers
此版本已通過基準測試,並移轉至下列 AWS 深度學習容器:
-
TensorFlow v2.11.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.11.0-gpu-py39-cu112-ubuntu20.04-sagemaker若要使用 Amazon SageMaker 訓練編譯器尋找預先建置容器的完整清單,請參閱支援的架構 AWS 區域、執行個體類型和測試模型。
SageMaker 訓練編譯器發行說明:2022 年 12 月 8 日
錯誤修正
-
修正了從 PyTorch v1.12 開始的 PyTorch 訓練工作的種子,以確保不同流程之間的模型初始化沒有差異。另請參閱〈PyTorch再現性
〉。
已知問題
-
在擁抱臉部的視覺變壓器中不當使用 PyTorch /XLA API 可能會導致收斂問題。
其他變更
-
使用「Hugging Face 變形金剛」
Trainer
類別時,請將optim
引數設定為,以確保您使用 SyncFree 最佳化工具。adamw_torch_xla
如需詳細資訊,請參閱 使用 Hugging Face 轉換器 Trainer 類別的大型語言模型。另請參閲 Hugging Face 轉換器文件中的最佳化工具。
移轉至 AWS Deep Learning Containers
此版本已通過基準測試,並移轉至下列 AWS 深度學習容器:
-
PyTorch v1.12.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-trcomp-training:1.12.0-gpu-py38-cu113-ubuntu20.04-sagemaker若要使用 Amazon SageMaker 訓練編譯器尋找預先建置容器的完整清單,請參閱支援的架構 AWS 區域、執行個體類型和測試模型。
SageMaker 訓練編譯器發行說明:2022 年 10 月 4 日
貨幣更新
-
增加了對 TensorFlow 2.10.0 版的支持。
其他變更
-
在 TensorFlow框架測試中添加了使用變形金剛庫的 Hugging Face NLP 模型。若要查找已測試的轉換器模型,請參閱測試模型模型。
移轉至 AWS Deep Learning Containers
此版本已通過基準測試,並移轉至下列 AWS 深度學習容器:
-
TensorFlow v2.10.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.10.0-gpu-py39-cu112-ubuntu20.04-sagemaker若要使用 Amazon SageMaker 訓練編譯器尋找預先建置容器的完整清單,請參閱支援的架構 AWS 區域、執行個體類型和測試模型。
SageMaker 訓練編譯器發行說明:2022 年 9 月 1 日
貨幣更新
-
增加了對具有 1.11.0 版的 Hugging Face 變壓器的支持 v4.21.1。 PyTorch
改善項目
-
實作新的分散式訓練啟動器機制,以啟動「Hugging Face 部變壓器」模型的 SageMaker 訓練編譯器 PyTorch。若要深入了解,請參閱針對分散式 PyTorch訓練使用 SageMaker 訓練編譯器執行訓練工作。
-
與 EFA 整合,以改善分散式訓練中的集體通訊。
-
新增對 PyTorch 訓練工作的 G5 執行個體支援。如需詳細資訊,請參閱 支援的架構 AWS 區域、執行個體類型和測試模型。
移轉至 AWS Deep Learning Containers
此版本已通過基準測試,並移轉至下列 AWS 深度學習容器:
-
HuggingFace 使用 1.11.0 版 PyTorch
763104351884.dkr.ecr.us-west-2.amazonaws.com/huggingface-pytorch-trcomp-training:1.11.0-transformers4.21.1-gpu-py38-cu113-ubuntu20.04
若要使用 Amazon SageMaker 訓練編譯器尋找預先建置容器的完整清單,請參閱支援的架構 AWS 區域、執行個體類型和測試模型。
SageMaker 訓練編譯器發行說明:2022 年 6 月 14 日
新功能
-
增加了對 TensorFlow v2.9.1 的支持。 SageMaker 訓練編譯器完全支援編譯 TensorFlow 模組 (
tf.*
) 和 TensorFlow Keras 模組 (tf.keras.*
)。 -
增加了對擴展 AWS Deep Learning Containers 所建立的自訂容器的支援 TensorFlow。如需詳細資訊,請參閱使用 SageMaker Python SDK 啟用 SageMaker 訓練編譯器和延伸 SageMaker 架構 Deep Learning Contain ers。
-
新增對 TensorFlow 訓練工作的 G5 執行個體支援。
移轉至 AWS Deep Learning Containers
此版本已通過基準測試,並移轉至下列 AWS 深度學習容器:
-
TensorFlow 2.9.1
763104351884.dkr.ecr.
<region>
.amazonaws.com/tensorflow-training:2.9.1-gpu-py39-cu112-ubuntu20.04-sagemaker若要使用 Amazon SageMaker 訓練編譯器尋找預先建置容器的完整清單,請參閱支援的架構 AWS 區域、執行個體類型和測試模型。
SageMaker 訓練編譯器發行說明:2022 年 4 月 26 日
改善項目
-
增加了對除中國地區以外的所有使用 AWS Deep Learning Contain
ers 的支持。 AWS 區域
SageMaker 訓練編譯器發行說明:2022 年 4 月 12 日
貨幣更新
-
增加了對 Hugging Face 變壓器的支持 v4.17.0 與 TensorFlow v2.6.3 和 1.10.2 版。 PyTorch
SageMaker 訓練編譯器發行說明:2022 年 2 月 21 日
改善項目
-
已完成基準測試,並已確認
ml.g4dn
執行個體類型的訓練加速。若要查找已測試ml
執行個體的完整清單,請參閱支援的執行個體類型。
SageMaker 訓練編譯器發行說明:2021 年 12 月 1 日
新功能
在 AWS RE:發明 2021 上推出了 Amazon SageMaker 培訓編譯器。
移轉至 AWS Deep Learning Containers
Amazon SageMaker 訓練編譯器通過基準測試,並移轉至 AWS Deep Learning Containers。若要使用 Amazon SageMaker 訓練編譯器尋找預先建置容器的完整清單,請參閱支援的架構 AWS 區域、執行個體類型和測試模型。