翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
組み込みアルゴリズムのインスタンスタイプ
ほとんどの Amazon SageMaker AI アルゴリズムは、GPU コンピューティングを活用してトレーニングするように設計されています。インスタンスごとのコストは高いものの、GPU はトレーニングをより迅速に行うため、費用対効果が高くなります。このガイドには例外が記載されています。
サポートされている EC2 インスタンスの詳細については、「インスタンスの詳細
データのサイズとタイプは、どのハードウェア構成が最も効果を発揮するかどうかに大きな影響を与えます。同じモデルが定期的にトレーニングされる場合、インスタンスタイプの初期テストで、長期的に見てよりコスト効率の良い構成を発見できます。さらに、GPU に対して最も効率的にトレーニングするアルゴリズムは、効率的な推論に GPU を必要としない場合があります。最も費用対効果の高いソリューションを試してみてください。自動インスタンスレコメンデーションを取得したり、カスタムロードテストを実施したりするには、Amazon SageMaker Inference Recommender を使用してください。
SageMaker AI ハードウェア仕様の詳細については、Amazon SageMaker AI ML インスタンスタイプ
UltraServers
UltraServers は、低レイテンシー、高帯域幅のアクセラレーター相互接続を使用して複数の Amazon EC2 インスタンスを接続します。これらは、大量の処理能力を必要とする大規模な AI/ML ワークロードを処理するように構築されています。詳細については、「Amazon EC2 UltraServers
Amazon SageMaker AI で UltraServers の使用を開始するには、トレーニングプランを作成します。 Amazon SageMaker UltraServer がトレーニングプランで使用できるようになったら、 AWS Management Console、Amazon SageMaker AI API、または を使用してトレーニングジョブを作成します AWS CLI。トレーニングプランで購入した UltraServer インスタンスタイプを必ず指定してください。
UltraServer は、一度に 1 つ以上のジョブを実行できます。UltraServers はインスタンスをグループ化するため、UltraServer 容量を組織に割り当てる方法について柔軟性があります。ジョブを設定するときは、組織のデータセキュリティガイドラインも覚えておいてください。1 つの UltraServer のインスタンスが同じ UltraServer の別のインスタンスの別のジョブのデータにアクセスできるためです UltraServer 。
UltraServer でハードウェア障害が発生した場合、SageMaker AI は自動的に問題の解決を試みます。SageMaker AI が問題を調査して解決すると、 AWS Health イベントまたは を通じて通知とアクションを受け取ることがあります AWS サポート。
トレーニングジョブが完了すると、SageMaker AI はインスタンスを停止しますが、プランがまだアクティブな場合はトレーニングプランで引き続き使用できます。ジョブの完了後に UltraServer のインスタンスを実行し続けるには、 マネージドウォームプールを使用できます。
トレーニングプランに十分な容量がある場合は、複数の UltraServersでトレーニングジョブを実行することもできます。デフォルトでは、各 UltraServer には 17 個のインスタンスと 1 個の予備インスタンスで構成される 18 個のインスタンスが付属しています。さらにインスタンスが必要な場合は、UltraServers を購入する必要があります。トレーニングジョブを作成するときは、 InstancePlacementConfig
パラメータを使用して UltraServers 間でジョブを配置する方法を設定できます。
ジョブ配置を設定しない場合、SageMaker AI は UltraServer 内のインスタンスにジョブを自動的に割り当てます。このデフォルトの戦略は、別の UltraServer を使用する前に、1 つの UltraServer ですべてのインスタンスを埋めることを優先するベストエフォートに基づいています UltraServer 。たとえば、14 個のインスタンスをリクエストし、トレーニングプランに 2 個の UltraServersがある場合、SageMaker AI は最初の UltraServer のすべてのインスタンスを使用します。20 個のインスタンスをリクエストし、トレーニングプランに 2 個の UltraServersがある場合、SageMaker AI は最初の UltraServer の 17 個のインスタンスすべてを使用し、2 番目の UltraServer の 3 UltraServer 個を使用します。UltraServer 内のインスタンスは NVLink を使用して通信しますが、個々の UltraServers Elastic Fabric Adapter (EFA) を使用しており、モデルトレーニングのパフォーマンスに影響する可能性があります。