SageMaker 資料平行程式庫版本說明 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

SageMaker 資料平行程式庫版本說明

請參閱下列版本說明,以追蹤 SageMaker 分散式資料平行處理 (SMDDP) 程式庫的最新更新。

SageMaker 分佈式數據並行性庫 v2.3.0

日期:二零二四年六月十一日

新功能

  • 增加了對 PyTorch 版本 2.3.0 的支持與 CUDA 版本 12.1 和 Python 3.11。

  • 增加了對 PyTorch 閃電 v2.2.5 的支持。這被集成到 PyTorch v2.3.0 的 SageMaker 框架容器中。

  • 在匯入期間新增執行個體類型驗證,以防止在不支援的執行個體類型載入 SMDDP 程式庫。如需與 SMDDP 程式庫相容的執行個體類型清單,請參閱。支援的架構 AWS 區域、和執行個體類型

整合至 SageMaker 架構容器

此版本的 SMDDP 程式庫會移轉至下列SageMaker 架構容器。

  • PyTorch V2.3.0

    763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.3.0-gpu-py311-cu121-ubuntu20.04-sagemaker

如需 SMDDP 程式庫版本和預先建置容器的完整清單,請參閱。支援的架構 AWS 區域、和執行個體類型

此版本的二進位檔

您可以使用下列 URL 下載或安裝程式庫。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.3.0/cu121/2024-05-23/smdistributed_dataparallel-2.3.0-cp311-cp311-linux_x86_64.whl

其他變更

  • SMDDP 程式庫 v2.2.0 已整合到適用於 v2.2.0 的 SageMaker 架構容器中。 PyTorch

SageMaker 分佈式數據並行庫 v2.2.0

日期:二零二四年三月四日

新功能

  • 使用 CUDA 版本 12.1 增加了對 PyTorch 2.2.0 的支持。

整合至由 SageMaker 模型平行處理原則 (SMP) 程式庫散佈的 Docker 容器

此版本的 SMDDP 資源庫已移轉至。 SageMaker 模型平行處理程式庫 v2.2.0

658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.2.0-gpu-py310-cu121

如需有 SMP 泊塢視窗映像檔可用的區域,請參閱。AWS 區域

此版本的二進位檔

您可以使用下列 URL 下載或安裝程式庫。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.2.0/cu121/2024-03-04/smdistributed_dataparallel-2.2.0-cp310-cp310-linux_x86_64.whl

SageMaker 分佈式數據並行庫 v2.1.0

日期:二零二四年三月一日

新功能

  • 使用 CUDA 版本 12.1 增加了對 PyTorch 2.1.0 的支持。

錯誤修正

整合至 SageMaker 架構容器

此版本的 SMDDP 程式庫已通過基準測試,並移轉至下列SageMaker 架構容器。

  • PyTorch V2.1.0

    763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.1.0-gpu-py310-cu121-ubuntu20.04-sagemaker

整合至由 SageMaker 模型平行處理原則 (SMP) 程式庫散佈的 Docker 容器

此版本的 SMDDP 資源庫已移轉至。 SageMaker 模型平行處理程式庫 v2.1.0

658645717510.dkr.ecr.<region>.amazonaws.com/smdistributed-modelparallel:2.1.2-gpu-py310-cu121

如需有 SMP 泊塢視窗映像檔可用的區域,請參閱。AWS 區域

此版本的二進位檔

您可以使用下列 URL 下載或安裝程式庫。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.1.0/cu121/2024-02-04/smdistributed_dataparallel-2.1.0-cp310-cp310-linux_x86_64.whl

SageMaker 分佈式數據並行庫 v2.0.1

日期:二零二三年十二月七日

新功能

已知問題

  • AllReduce在 DDP 模式下使用 SMDDP 進行訓練時,CPU 記憶體逐漸增加導致 CPU 記憶體洩漏問題。

整合至 SageMaker 架構容器

此版本的 SMDDP 程式庫已通過基準測試,並移轉至下列SageMaker 架構容器。

  • PyTorch v2.0.1

    763104351884.dkr.ecr.<region>.amazonaws.com/pytorch-training:2.0.1-gpu-py310-cu118-ubuntu20.04-sagemaker

此版本的二進位檔

您可以使用下列 URL 下載或安裝程式庫。

https://smdataparallel.s3.amazonaws.com/binary/pytorch/2.0.1/cu118/2023-12-07/smdistributed_dataparallel-2.0.2-cp310-cp310-linux_x86_64.whl

其他變更

  • 從此版本開始,SMDDP 程式庫的文件完整可在此 Amazon SageMaker 開發人員指南中取得。有利於 Amazon 開發人員指南中提供 SMDDP v2 的完整 SageMaker 開發人員指南,不再支援 SageMaker Python SDK 文件中 SMDDP v1.x 的其他參考文件。如果您仍然需要 SMP v1.x 文檔,請參閱以下文檔的快照,請參閱 SageMaker Python SDK v2.212.0 文檔中的文檔。