異種クラスターでのトレーニングジョブの実行

SageMaker トレーニングの異種クラスター機能を使用すると、複数のタイプの ML インスタンスでトレーニングジョブを実行し、さまざまな ML トレーニングタスクや目的に合わせてリソースのスケーリングと使用率を高めることができます。例えば、GPU インスタンスを使用したクラスター上のトレーニングジョブで、GPU 使用率が低く、CPU 負荷の高いタスクにより CPU がボトルネックになる問題が発生した場合、異種クラスターを使用することで、コスト効率の高い CPU インスタンスグループを追加し CPU 負荷の高いタスクをオフロードし、このようなボトルネックの問題を解決して、GPU の使用率を高めることができます。

注記

この機能は SageMaker Python SDK v2.98.0 以降で利用できます。

注記

この機能は、SageMaker AI PyTorch および TensorFlow フレームワーク推定器クラスを通じて使用できます。サポートされているフレームワークは PyTorch v1.10 以降と TensorFlow v2.6 以降です。

ブログAmazon SageMaker AI 異種クラスターを使用したモデルトレーニングの料金パフォーマンスの向上」も参照してください。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

SageMaker AI 環境変数とトレーニングストレージの場所のデフォルトパス

Amazon SageMaker AI で異種クラスターを使用してトレーニングジョブを設定する