本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
SageMaker 資料平行程式庫版本說明
請參閱下列版本說明,以追蹤 SageMaker 分散式資料平行處理 (SMDDP) 程式庫的最新更新。
SageMaker 分佈式數據並行性庫 v2.3.0
日期:二零二四年六月十一日
新功能
-
增加了對 PyTorch 版本 2.3.0 的支持與 CUDA 版本 12.1 和 Python 3.11。
-
增加了對 PyTorch 閃電 v2.2.5 的支持。這被集成到 PyTorch v2.3.0 的 SageMaker 框架容器中。
-
在匯入期間新增執行個體類型驗證,以防止在不支援的執行個體類型載入 SMDDP 程式庫。如需與 SMDDP 程式庫相容的執行個體類型清單,請參閱。支援的架構 AWS 區域、和執行個體類型
整合至 SageMaker 架構容器
此版本的 SMDDP 程式庫會移轉至下列SageMaker 架構
-
PyTorch V2.3.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker
如需 SMDDP 程式庫版本和預先建置容器的完整清單,請參閱。支援的架構 AWS 區域、和執行個體類型
此版本的二進位檔
您可以使用下列 URL 下載或安裝程式庫。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl
其他變更
-
SMDDP 程式庫 v2.2.0 已整合到適用於 v2.2.0 的 SageMaker 架構容器中。 PyTorch
SageMaker 分佈式數據並行庫 v2.2.0
日期:二零二四年三月四日
新功能
-
使用 CUDA 版本 12.1 增加了對 PyTorch 2.2.0 的支持。
整合至由 SageMaker 模型平行處理原則 (SMP) 程式庫散佈的 Docker 容器
此版本的 SMDDP 資源庫已移轉至。 SageMaker 模型平行處理程式庫 v2.2.0
658645717510.dkr.ecr.
<region>
.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121
如需有 SMP 泊塢視窗映像檔可用的區域,請參閱。AWS 區域
此版本的二進位檔
您可以使用下列 URL 下載或安裝程式庫。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl
SageMaker 分佈式數據並行庫 v2.1.0
日期:二零二四年三月一日
新功能
-
使用 CUDA 版本 12.1 增加了對 PyTorch 2.1.0 的支持。
錯誤修正
-
修正中的 CPU 記憶體洩漏問題SMDDP 第 2.0.1 版。
整合至 SageMaker 架構容器
此版本的 SMDDP 程式庫已通過基準測試,並移轉至下列SageMaker 架構
-
PyTorch V2.1.0
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker
整合至由 SageMaker 模型平行處理原則 (SMP) 程式庫散佈的 Docker 容器
此版本的 SMDDP 資源庫已移轉至。 SageMaker 模型平行處理程式庫 v2.1.0
658645717510.dkr.ecr.
<region>
.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121
如需有 SMP 泊塢視窗映像檔可用的區域,請參閱。AWS 區域
此版本的二進位檔
您可以使用下列 URL 下載或安裝程式庫。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl
SageMaker 分佈式數據並行庫 v2.0.1
日期:二零二三年十二月七日
新功能
-
新增針對 AWS 運算資源和網路基礎架構最佳化的
AllGather
集體作業的 SMDDP 實作。如需進一步了解,請參閱SMDDP AllGather 集體運作。 -
SMDDP
AllGather
集體運作與 PyTorch FSDP 和相容。 DeepSpeed如需進一步了解,請參閱在 PyTorch 訓練指令碼中使用SMDDP程式庫。 -
增加了對 2.0.1 PyTorch 版的支持
已知問題
-
AllReduce
在 DDP 模式下使用 SMDDP 進行訓練時,CPU 記憶體逐漸增加導致 CPU 記憶體洩漏問題。
整合至 SageMaker 架構容器
此版本的 SMDDP 程式庫已通過基準測試,並移轉至下列SageMaker 架構
-
PyTorch v2.0.1
763104351884.dkr.ecr.
<region>
.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker
此版本的二進位檔
您可以使用下列 URL 下載或安裝程式庫。
https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl
其他變更
-
從此版本開始,SMDDP 程式庫的文件完整可在此 Amazon SageMaker 開發人員指南中取得。有利於 Amazon 開發人員指南中提供 SMDDP v2 的完整 SageMaker 開發人員指南,不再支援 SageMaker Python SDK 文件中 SMDDP v1.x 的其他參考
文件。如果您仍然需要 SMP v1.x 文檔,請參閱以下文檔的快照,請參閱 SageMaker Python SDK v2.212.0 文檔中的文檔。