機械学習用のキャパシティブロック
ML 用のキャパシティブロックを使用すると、短期間の機械学習 (ML) ワークロードをサポートするために、非常に需要の高い GPU インスタンスを将来の日付で予約できます。キャパシティブロック内で実行されるインスタンスは、「Amazon EC2 UltraClusters
キャパシティブロックを使用すると、GPU インスタンスのキャパシティを今後いつ使用できるかを確認でき、都合のよい時間にキャパシティブロックを開始するようにスケジュールできます。キャパシティブロックを予約すると、GPU インスタンスのキャパシティを予測して確保することができます。料金は必要な時間分しか発生しません。ML ワークロードを一度に数日間または数週間サポートするために GPU が必要であり、GPU インスタンスを使用していない間は予約の料金を支払いたくないという場合は、キャパシティブロックをお勧めします。
キャパシティブロックの一般的なユースケースは以下のとおりです。
-
ML モデルトレーニングと微調整 — ML モデルトレーニングと微調整を完了するために予約した GPU インスタンスに、中断なしにアクセスできます。
-
ML 実験とプロトタイプ — GPU インスタンスを必要とする実験の実行およびプロトタイプの構築を短期間で行えます。
現在、キャパシティブロックは p5.48xlarge
、p5e.48xlarge
、p4d.24xlarge
および trn1.32xlarge
インスタンスで利用できます。p5.48xlarge
インスタンスは米国東部 (バージニア北部)、米国東部 (オハイオ)、米国西部 (オレゴン)、アジアパシフィック(東京) リージョンで利用できます。p5e.48xlarge
インスタンスは、米国東部 (オハイオ) リージョンで利用できます。p4d.24xlarge
インスタンスは、米国東部 (オハイオ) および米国西部 (オレゴン) リージョンで使用できます。trn1.32xlarge
インスタンスは、アジアパシフィック (メルボルン) リージョンで使用できます。キャパシティブロックは、最大 8 週間先を開始時刻に設定して予約することができます。
キャパシティブロックを使用し、p5
、p5e
、p4d
、trn1
インスタンスを次の予約期間およびインスタンス数のオプションで予約できます。
-
予約期間は 1 日単位で合計最大 14 日間、7 日単位で合計最大 182 日間
-
予約インスタンスの数量は、1、2、4、8、16、32、64
キャパシティブロックを予約するには、インスタンスタイプ、必要なインスタンス数、日数、最も早い開始日、最も遅い終了日など、必要なキャパシティを最初に指定します。そうすると、その要件を満たす、利用可能なキャパシティブロックのサービスを確認できます。キャパシティブロックのサービスには、開始時刻、アベイラビリティーゾーン、予約料金などの詳細が記されています。キャパシティブロックサービスの料金は、サービスが提供される時点の需要と供給の状況によって異なります。キャパシティブロックの予約後に料金が変わることはありません。詳細については、「キャパシティブロックの料金と請求」を参照してください。
キャパシティブロックのサービスを購入すると、選択した日付とインスタンス数で予約が作成されます。キャパシティブロックの予約が開始されたら、起動リクエストで予約 ID を指定すると、インスタンスの起動をターゲットに設定できます。
予約したすべてのインスタンスを使用できるのは、キャパシティブロックの終了時刻の 30 分前までです。キャパシティブロックの予約が残り 30 分になると、キャパシティブロックで実行中のすべてのインスタンスの終了プロセスが開始されます。この時間を使ってインスタンスをクリーンアップしてから、キャパシティブロックを次の利用者に渡します。当社は、終了プロセスが始まる 10 分前に EventBridge を通じてイベントを送信します。詳細については、「EventBridge を使用してキャパシティブロックをモニタリングする」を参照してください。
トピック
サポートされているプラットフォーム
現在、ML 用のキャパシティブロックはデフォルトテナンシーの p5.48xlarge
、p5e.48xlarge
、p4d.24xlarge
および trn1.32xlarge
インスタンスをサポートしています。AWS Management Console を使用してキャパシティブロックを購入する場合、デフォルトのプラットフォームは Linux/UNIX です。AWS Command Line Interface (AWS CLI) または AWS SDK を使用してキャパシティブロックを購入する場合、以下のプラットフォームオプションを使用できます。
-
Linux/UNIX
-
Red Hat Enterprise Linux
-
RHEL with HA
-
SUSE Linux
-
Ubuntu Pro
考慮事項
キャパシティブロックを使用するときは、事前に以下の詳細と制限を念頭におきます。
-
早くて 30 分で開始できるキャパシティブロックサービスを記述できます。
-
キャパシティブロックは、協定世界時 (UTC) の午前 11 時 30 分に終了します。
-
キャパシティブロック内で実行しているインスタンスの終了プロセスは、予約の最終日の協定世界時 (UTC) 午前 11 時に始まります。
-
キャパシティブロックの開始時刻は最大 8 週間先を予約できます。
-
キャパシティブロックは修正およびキャンセルはできません。
-
キャパシティブロックは AWS アカウント間や AWS 組織内で共有することはできません。
-
キャパシティブロックはキャパシティ予約グループでは使用できません。
-
AWS 組織内の全アカウントのキャパシティブロックで予約できるインスタンスの合計数は、特定の日に 64 インスタンスを超えることはできません。
-
キャパシティブロックを使用するには、インスタンスが予約 ID を明確にターゲットにしている必要があります。
-
キャパシティブロック内のインスタンスは、オンデマンドインスタンスの制限にはカウントされません。
-
カスタム AMI を使用する P5 インスタンスの場合は、EFA に必要なソフトウェアと設定があることを確認してください。
-
Amazon EKS マネージド型ノードグループについては、「Create a managed node group with Amazon EC2 Capacity Blocks for ML」を参照してください。Amazon EKS セルフマネージド型ノードグループについては、「セルフマネージド型ノードで機械学習用のキャパシティブロックを使用する」を参照してください。
関連リソース
キャパシティブロックを作成したら、キャパシティブロックを使用して次の操作を実行できます。
-
インスタンスをキャパシティブロックで起動します。詳細については、「インスタンスをキャパシティブロックで起動します。」を参照してください。
-
Amazon EC2 Auto Scaling グループを作成します。詳細については、「Amazon EC2 Auto Scaling ユーザーガイド」の「Use Capacity Blocks for machine learning workloads」を参照してください。
注記
Amazon EC2 Auto Scaling または Amazon EKS を使用する場合は、キャパシティブロック予約の開始時にスケーリングを実行するようにスケジュールできます。スケジュールされたスケーリングでは、AWS が再試行を自動的に処理するため、一時的な障害を処理するための再試行ロジックの実装について心配する必要はありません。
-
AWS ParallelCluster で ML ワークフローを強化します。詳細については、「AWS ParallelCluster と Amazon EC2 Capacity Blocks for ML で ML ワークフローを強化する
」を参照してください。
AWS ParallelClusterの詳細については、とはAWS ParallelClusterを参照してください。