使用分散式資料平行程式庫執行 SageMaker 分散式訓練 - Amazon SageMaker

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用分散式資料平行程式庫執行 SageMaker 分散式訓練

SageMaker 分散式資料平行處理 (SMDDP) 程式庫提供針對基礎結構最佳化的集體通訊作業實作,以近乎線性的擴充效率擴充深度學習模型的 SageMaker 訓練功能。 AWS

在龐大的訓練資料集上訓練大型機器學習 (ML) 模型 (ML) 模型 (例如大型語言模型 (LLM) 和擴散模型時,ML 從業人員會使用加速器叢集和分散式訓練技術來減少訓練或解決無法適合每個 GPU 記憶體之模型的記憶體限制的時間。ML 從業人員通常從單一執行個體上的多個加速器開始,然後隨著工作負載需求的增加而擴展到執行個體叢集。隨著群集大小的增加,多個節點之間的通信開銷也會導致整體計算性能下降。

為了解決此類額外負荷和記憶體問題,SMDDP 程式庫提供下列功能。

  • SMDDP 程式庫可最佳化 AWS 網路基礎設施和 Amazon SageMaker ML 執行個體拓撲的訓練任務。

  • SMDDP 程式庫透過針對 AWS 基礎結構最佳化的實作AllReduceAllGather集體通訊作業來改善節點之間的通訊。

若要深入瞭解 SMDDP 程式庫產品的詳細資訊,請繼續執行。 SageMaker 分散式資料平行程式庫簡介

如需使用提供的 parallel 模型策略進行訓練的詳細資訊 SageMaker,另請參閱。(已封存) SageMaker 模型平行程式庫 v1.x