SageMakerのデータ並列処理ライブラリ - アマゾン SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMakerのデータ並列処理ライブラリ

SageMaker データ並列ライブラリは、深層学習モデルに関する、深層学習モデルに関する、 SageMaker ほぼ線形のスケーリング効率でトレーニング機能を拡張し、 time-to-train 最小限のコード変更でトレーニング時間を短縮します。

大量のデータでモデルをトレーニングする場合、機械学習を実践する人は、トレーニング時間を短縮するために分散トレーニングを利用することがよくあります。ときには、時間が重要な場合、できるだけ早く、または少なくとも限られた時間内にトレーニングを完了させることがビジネス要件となる場合があります。この場合、分散トレーニングは、1 つのコンピューティングインスタンス内の複数の GPU にとどまらず、複数の GPU を持つ複数のインスタンスで、複数のノードのクラスターを使うようにスケールされます。クラスターサイズが大きくなると、パフォーマンスも大きく低下します。このパフォーマンス低下は、主にクラスター内のノード間の通信オーバーヘッドによって引き起こされます。

このようなオーバーヘッドの問題を解決するために、 SageMaker SageMaker モデル並列化とデータ並列化という 2 SageMaker つの分散型トレーニングオプションを提供しています。このガイドでは、 SageMakerデータ並列ライブラリを使ってモデルをトレーニングする方法に焦点を当てます。

  • このライブラリは、AWS ネットワークインフラストラクチャと Amazon EC2 インスタンストポロジー向けにトレーニングジョブを最適化します。

  • ライブラリは、勾配の更新を利用して、カスタムの AllReduce アルゴリズムに従ってノード間の通信を行います。

ライブラリの最新の更新を追跡するには、SageMaker Python SDK ドキュメントの「SageMaker 分散データパラレルリリースノート」を参照してください

モデルparallel 戦略を使ったトレーニングの詳細については「SageMakerのモデル並列処理ライブラリ