SageMaker 分散データ並列処理ライブラリによる分散トレーニングの実行

SageMaker Distributed Data Parallelism (SMDDP) ライブラリは、インフラストラクチャに最適化された集団通信操作を実装することで、 SageMaker ディープラーニングモデルのトレーニング機能をほぼ線形のスケーリング効率で拡張します。 AWS

大規模な言語モデル（LLM）や拡散モデルなどの大規模な機械学習（ML）モデルを巨大なトレーニングデータセットでトレーニングする場合、機械学習実践者はアクセラレータのクラスターと分散トレーニング手法を使用して、トレーニングにかかる時間を短縮したり、各GPUメモリに収まらないモデルのメモリ制約を解決したりします。ML の実践者は、1 つのインスタンスで複数のアクセラレータから始め、ワークロード要件の増大に応じてインスタンスのクラスターにスケーリングすることがよくあります。クラスターのサイズが大きくなると、複数のノード間の通信オーバーヘッドも大きくなり、全体的な計算パフォーマンスが低下します。

このようなオーバーヘッドとメモリの問題に対処するため、SMDDP ライブラリでは以下の機能を提供しています。

SMDDP ライブラリは、 AWS ネットワークインフラストラクチャと Amazon SageMaker ML インスタンストポロジのトレーニングジョブを最適化します。
SMDDP ライブラリは、AllReduceAllGatherインフラストラクチャに最適化された通信オペレーションの実装と一括通信操作により、ノード間の通信を改善します。 AWS

SMDDP ライブラリサービスの詳細については、を参照してください。 SageMaker 分散データ並列処理ライブラリの概要

が提供するモデルparallel 戦略によるトレーニングの詳細については SageMaker、も参照してください。(アーカイブ済み) SageMaker モデル並列処理ライブラリ v1.x

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

スケーリングトレーニング

SMDDP ライブラリの概要