トレーニングジョブまたは HyperPod クラスターのトレーニングプランを予約する - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

トレーニングジョブまたは HyperPod クラスターのトレーニングプランを予約する

Amazon SageMaker トレーニングプランは、大規模な AI モデルトレーニングワークロードで GPU 容量を予約して最大限に活用できる機能です。この機能により、最新の NVIDIA GPU テクノロジーや AWS trainium チップなど、GPU アクセラレーションコンピューティングのさまざまなオプションをカバーする、人気の高いインスタンスタイプにアクセスできます。SageMaker トレーニングプランを使用すると、基盤となるインフラストラクチャを管理することなく、指定したタイムラインと予算内でこれらの高需要で高性能な計算リソースへの予測可能なアクセスを確保できます。この柔軟性は、これらのオーバーサブスクライブされたコンピューティングインスタンスを取得してミッションクリティカルな AI ワークロードにスケジューリングするという課題に対処する組織にとって特に重要です。

SageMaker トレーニングプランとは

SageMaker トレーニングプランを使用すると、SageMaker トレーニングジョブや SageMaker HyperPod クラスターなど、ターゲットリソースのニーズに合わせたコンピューティングキャパシティを予約できます。 SageMaker このサービスは、予約、高速コンピューティングリソースのプロビジョニング、インフラストラクチャのセットアップ、ワークロードの実行、インフラストラクチャの障害からの復旧を自動的に処理します。

SageMaker トレーニングプランは、1 つ以上のリザーブドキャパシティブロックで構成され、それぞれ次のパラメータで定義されます。

  • 特定のインスタンスタイプ

  • インスタンスの数

  • アベイラビリティーゾーン

  • 期間

  • 開始時刻と終了時刻

注記
  • トレーニングプランはターゲットリソース (SageMaker トレーニングジョブまたは SageMaker HyperPod) に固有であり、置き換えることはできません。

  • 1 つのトレーニングプラン内の複数のリザーブドキャパシティブロックは不連続になる場合があります。つまり、リザーブドキャパシティブロック間にギャップが生じる可能性があります。

SageMaker トレーニングプランの利点

SageMaker トレーニングプランには、次の利点があります。

  • 予測可能なアクセス: 指定された期間内に機械学習ワークロードの GPU 容量を予約します。

  • コスト管理: 大規模なトレーニング要件の計画と予算を事前に作成します。

  • 自動リソース管理: SageMaker トレーニングプランは、インフラストラクチャのプロビジョニングと管理を処理します。

  • 柔軟性: SageMaker トレーニングジョブや SageMaker HyperPod クラスターなど、さまざまなリソースのトレーニングプランを作成します。

  • 耐障害性: SageMaker AI トレーニングジョブのインフラストラクチャ障害からの自動復旧とアベイラビリティーゾーン間のワークロード移行の利点があります。

SageMaker トレーニングプランの事前予約と柔軟な開始時間

SageMaker トレーニングプランを使用すると、柔軟な開始時間と期間で、コンピューティング容量を事前に予約できます。

  • 事前予約: トレーニングプランは、開始日の 8 週間 (56 日) 前まで予約できます。

  • 最小リードタイム: SageMaker トレーニングプランの提供は、予約後 30 分以内に開始できます。ただし、空き状況によっては開始できない場合があります。

    注記

    30 分以内にアクセス可能なプランを検索して購入できます。タイムリーなアクティベーションを確保するために、支払いトランザクションは希望する開始時刻の少なくとも 5 分前に正常に完了する必要があります。たとえば、計画を午後 2 時に開始する場合は、午後 1 時 30 分までの直前検索を行い、午後 1 時 55 分までに購入を完了して、計画の準備が午後 2 時までに完了するようにできます。

  • 予約期間とインスタンス数: SageMaker トレーニングプランでは、特定の期間と数量オプションを使用してインスタンスを予約できます。特定の、期間 AWS リージョン、数量オプションで使用可能なインスタンスタイプについては、「」を参照してくださいサポートされているインスタンスタイプ、 AWS リージョン、および の料金

  • 終了時刻: トレーニングプランは常に予約の最終日の午前 11:30 UTC に終了します。

  • トレーニングプランの終了: トレーニングジョブをターゲットリソースとして使用していて、リザーブドキャパシティに 30 分残っている場合、SageMaker トレーニングプランは、次のリザーブドキャパシティがアクティブになるまで、そのブロック内で実行中のインスタンスを終了するプロセスを開始します。トレーニングプランへのフルアクセスは、最後のリザーブドキャパシティブロックの終了時刻の 30 分前まで保持されます。

    ターゲットリソースが SageMaker HyperPod クラスターの場合、この制限時間は 1 時間です。

SageMaker トレーニングプランのユーザーワークフロー

SageMaker トレーニングプランは、次のステップを実行します。

管理者ステップ:

  1. 検索とレビュー: インスタンスタイプ、カウント、開始時間、期間など、コンピューティング要件に合った利用可能なプランサービスを検索します。

  2. プランを作成する: 選択したプラン提供の ID を使用して、ニーズに合ったトレーニングプランを予約します。

  3. 支払いとスケジューリング: 前払いが成功すると、プランのステータスは になりますScheduled

プランユーザー/ML エンジニア向けのステップ:

  1. リソース割り当て: プランを使用して SageMaker AI トレーニングジョブをキューに入れるか、SageMaker HyperPod クラスターインスタンスグループに割り当てます。

  2. アクティベーション: プラン開始日が到着すると、 になりますActive。利用可能なリザーブドキャパシティに基づいて、SageMaker トレーニングプランはトレーニングジョブを自動的に起動するか、インスタンスグループをプロビジョニングします。

注記

トレーニングプランのステータスは、リザーブドキャパシティ期間の開始時ScheduledActiveに から に移行し、Scheduled次のリザーブドキャパシティ期間の開始時に に戻ります。

次の図は、SageMaker トレーニングプランがさまざまな とやり取りする方法の包括的な概要を示しtarget resources、SageMaker トレーニングジョブと SageMaker SageMaker HyperPod クラスターの両方のリソース割り当てにおけるプランのライフサイクルとその役割を示しています。

  • SageMaker トレーニングジョブのトレーニングプラン: 最初の図は、トレーニングプランと SageMaker トレーニングジョブ間のやり取りのend-to-endのワークフローを示しています。

    請求、トレーニングプランによるキャパシティ予約、SageMaker トレーニングジョブ。トレーニングプランのライフサイクルと、管理者と ML エンジニアが管理するトレーニングジョブの状態の図。
  • SageMaker HyperPod クラスターのトレーニングプラン: 2 番目の図は、トレーニングプランと SageMaker HyperPod インスタンスグループ間のインタラクションのend-to-endのワークフローを示しています。

    請求、トレーニングプランによるキャパシティ予約、インスタンスグループ管理ワークフロー。管理者と ML エンジニアが管理するトレーニングプランのライフサイクルとインスタンスグループの状態の図。

サポートされているインスタンスタイプ、 AWS リージョン、および の料金

トレーニングプランは、以下の特定の高性能インスタンスタイプの予約をサポートします。各インスタンスタイプは、 で選択可能です AWS リージョン。

  • ml.p4d.24xlarge

  • ml.p5.48xlarge

  • ml.p5e.48xlarge

  • ml.p5en.48xlarge

  • ml.trn1.32xlarge

  • ml.trn2.48xlarge

  • ml.p6-b200.48xlarge

  • ml.c6i-32xlargesc

UltraServers

  • ml.p6e-gb200.36xlarge

  • ml.p6e-gb200.72xlarge

注記

インスタンスタイプの可用性は、時間の経過とともに変化する可能性があります。リージョンに応じた使用可能なインスタンスタイプとそれぞれの料金に関するup-to-dateについては、SageMaker の料金」を参照してください。「オンデマンド料金」のAmazon SageMaker HyperPod Flexible Training Plans」セクションにスクロールダウンします。 リージョンを選択すると、使用可能なインスタンスタイプのリストが表示されます。

複数のリージョンにまたがる可用性により、 は、データレジデンシー要件や他の AWS サービスへの近接性などの要因を考慮して、ワークロードに最適な場所を選択できます。

重要
  • SageMaker トレーニングプランを使用して、次の予約期間とインスタンス数オプションを使用してインスタンスを予約できます。

    • 予約期間は 1~182 日の 1 日単位で利用できます。

    • 予約インスタンスの数量オプションは、1、2、4、8、16、32、または 64 インスタンスです。

  • トレーニングジョブまたは HyperPod サービスクォータで、プランで指定されたインスタンス数を超えるインスタンスタイプあたりのインスタンスの最大数が許可されていることを確認します。現在のクォータを表示したり、クォータの引き上げをリクエストしたりするには、「」を参照してくださいAWS マネジメントコンソールを使用して SageMaker トレーニングプランのクォータを表示する

SageMaker AI の UltraServers

SageMaker AI の UltraServers は、高帯域幅ネットワークドメインを介して相互接続された一連のインスタンスを提供します。たとえば、P6e-GB200 UltraServer は、1 つの NVIDIA NVLink ドメインに最大 18 個のp6e-gb200.36xlargeインスタンスを接続します。インスタンスごとに 4 つの NVIDIA Blackwell GPUs を使用すると、各 P6e-GB200 UltraServer は 72 GPUs をサポートするため、SageMaker AI で最大の AI ワークロードをハイパフォーマンスで実行できます。

SageMaker AI で UltraServers を使用すると、SageMaker AI のマネージドインフラストラクチャ、組み込みの障害耐性機能、統合モニタリング機能、他の SageMaker AI および AWS サービスとのネイティブ統合とパフォーマンスが組み合わされます。この統合により、SageMaker AI が AI インフラストラクチャの管理における差別化されていない重労働を処理しながら、モデルの開発とデプロイに集中できます。

注記

UltraServers は、米国東部 (バージニア北部) リージョンの拡張であるダラスローカルゾーン (us-east-1-dfw-2a) でのみ使用できます。詳細については、「 の開始方法」を参照してください AWS ローカルゾーン。

考慮事項

SageMaker AI で UltraServers を使用する場合は、次の点を考慮してください。

  • UltraServers は、SageMaker HyperPod SageMaker の両方のトレーニングジョブに使用できます。

  • UltraServers はフルユニットでのみ購入できます。インスタンスと料金の詳細については、Amazon SageMaker料金」のAmazon SageMaker HyperPod Flexible Training Plans」を参照してください。

  • HyperPod で UltraServers を使用している場合、HyperPod はリソースの割り当てに役立つトポロジラベルを自動的にリソースに追加します。詳細については、Amazon SageMaker HyperPod でのトポロジ対応スケジューリングの使用」を参照してください。

  • SageMaker AI と UltraServers は、プリエンプティブチェックや自動障害検出と緩和など、ワークロードの耐障害性を強化するさまざまな機能を提供します。問題に応じて、SageMaker AI は、インスタンスの再起動、障害が発生したインスタンスの予備の置き換え、障害が発生した UltraServers の置き換えなど、ワークロードを復旧するためのアクションを実行できます。

  • 耐障害性を高めるために、UltraServer 内のインスタンスをスペアとして使用するように設定できます。UltraServer 内に予備のインスタンスを保持すると、SageMaker AI はジョブへの影響を最小限に抑えながら、インスタンスの障害に迅速に対応できます。UltraServer ごとに 1 つのスペアインスタンスを保持することをお勧めします。予備のインスタンスを予約する必要はありませんが、サポートオプションが妨げられ、障害復旧が遅くなる可能性があります。UltraServers は全体で購入するため、予約するスペアの数は料金に影響しません。

  • UltraServer 内のステータスとインスタンスを確認するには、ListTrainingPlans API オペレーションまたは AWS コンソールを使用してトレーニングプランを表示します。これらのツールを使用して、使用可能なインスタンス、現在使用中のインスタンス、異常なインスタンス、設定されたスペアの数、その他の情報の合計数を確認できます。考えられるヘルスステータスは、okimpaired、および ですinsufficient-data

SageMaker トレーニングプランの検索動作

トレーニングプランの提供を検索する場合、SageMaker トレーニングプランは次のアプローチを使用して、需要が高くリザーブドキャパシティブロックが不足している場合でも、ユーザーのリソースの可用性と柔軟性を最大化します。

  • 初期連続検索: SageMaker トレーニングプランは、最初に、開始日と終了日内の指定された期間に一致するリザーブドキャパシティの 1 つの連続ブロックを見つけようとしますが、ターゲットリソース、リクエストされたインスタンスタイプ、インスタンス数など、他のすべての指定された基準を満たします。

  • 2 ブロック検索: すべての条件を満たす 1 つの継続的なリザーブドキャパシティブロックが使用できない場合、SageMaker トレーニングプランは「容量なし」の結果を返しません。代わりに、2 つの個別のリザーブドキャパシティブロックを使用してリクエストを自動的に処理し、合計期間を 2 つの時間セグメントに分割します。

    この 2 ブロックアプローチは、リソース割り当ての柔軟性を高め、それ以外の場合は使用できなくなる可能性のあるオンデマンドインスタンスを保護する可能性があります。

注記

SageMaker トレーニングプランは、1 つまたは 2 つのセグメントのサービスを最大 3 つ返します。例えば、48 時間の期間プランの場合、SageMaker トレーニングプランは、2 つの 24 時間ブロック、1 つの連続 48 時間ブロック、2 つの不均等な期間を持つプランを提供する場合があります。

考慮事項

重要
  • 購入後にトレーニングプランを変更することはできません。

  • トレーニングプランは、 AWS アカウント間または組織内で AWS 共有することはできません。

  • トレーニングプランのサービスを検索する場合、SageMaker トレーニングプランは に基づいて検索戦略を調整しますtarget resources

    SageMaker HyperPod クラスターの場合

    • サービスは 1 つのアベイラビリティーゾーン (AZ) に制限されています。

    • これにより、クラスター内の一貫したネットワークパフォーマンスとデータローカル性が確保されます。

    SageMaker トレーニングジョブの場合

    • サービスは複数のアベイラビリティーゾーンにまたがることができます。

    • これは、プランオファリングに複数の不連続なリザーブドキャパシティが含まれている場合に特に当てはまります。

    • たとえば、プランには、あるリザーブドキャパシティブロックの AZ-A のキャパシティと、別のリザーブドキャパシティブロックの AZ-B のキャパシティが含まれる場合があります。SageMaker トレーニングプランは、リソースの可用性に基づいて、アベイラビリティーゾーン (AZs) 間でワークロードを自動的に移動できます。

      トレーニングジョブに対するこのマルチ AZ アプローチは、リソース割り当ての柔軟性を高め、ワークロードに適した容量を見つける可能性を高めます。ただし、ジョブは予約期間のさまざまな部分で異なる AZs で実行される可能性があることに注意してください。

  • 2 ブロックサービスが提供される場合、ユーザーはこの分割配分がワークロード要件を満たしているかどうかを慎重に検討する必要があります。これには、予約の非継続的な性質に対応するために、ジョブスケジューリングまたはワークロード分散の調整が必要になる場合があります。