Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする

フォーカスモード

Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする - Amazon SageMaker AI

SageMaker HyperPod での Slurm サポートを使用すると、機械学習 (ML) ワークロードを実行し、大規模言語モデル (LLM)、拡散モデル、基盤モデル (FM) などの最先端のモデルを開発するための回復力のあるクラスターをプロビジョニングできます。 AWS Trainium、NVIDIA A100、H100 Graphical Processing Units (GPU) などの何千ものアクセラレーターを搭載した大規模なコンピューティングクラスターの構築と維持に伴う差別化されていない重リフトを排除することで、FMs の開発を加速します。 H100 GPUs アクセラレーターで障害が発生すると、SageMaker HyperPod の回復機能によりクラスターインスタンスが自動的に検出されて置き換えられるため、ML ワークロードの実行に集中できます。さらに、SageMaker HyperPod のライフサイクル設定のサポートにより、ニーズに最適なコンピューティング環境をカスタマイズし、Amazon SageMaker AI 分散トレーニングライブラリで設定して最適なパフォーマンスを実現できます AWS。

クラスターを操作する

SageMaker HyperPod クラスターは、コンソールユーザーインターフェイス (UI) を介してグラフィカルに、および AWS コマンドラインインターフェイス (CLI) またはを介してプログラムで作成、設定、保守できます AWS SDK for Python (Boto3)。Amazon VPC を使用すると、クラスターネットワークを保護でき、最速のスループットを提供する Amazon FSx for Lustre などの VPC 内のリソースによってクラスターを設定することもできます。さらに、クラスターインスタンスグループにさまざまな IAM ロールを付与し、クラスターリソースとユーザーが操作できるアクションを制限することもできます。詳細についてはSageMaker HyperPod オペレーションを参照してください。

ML 環境を設定する

SageMaker HyperPod は、HyperPod クラスターに ML 環境をセットアップする SageMaker HyperPod DLAMI を実行します。ユースケースをサポートするライフサイクルスクリプトを提供することにより、DLAMI に追加のカスタマイズを設定できます。ライフサイクルスクリプトの設定方法の詳細については、「SageMaker HyperPod の使用開始に関するチュートリアル」と「ライフサイクルスクリプトを使用して SageMaker HyperPod クラスターをカスタマイズする」を参照してください。

ジョブをスケジュールする

HyperPod クラスターを正常に作成すると、クラスターユーザーはクラスターノード (ヘッドノードやコントローラーノード、ログインノード、ワーカーノードなど) にログインし、機械学習ワークロードを実行するジョブをスケジュールできます。詳細についてはSageMaker HyperPod クラスター上のジョブを参照してください。

ハードウェア障害からの回復性

SageMaker HyperPod はクラスターノードでヘルスチェックを実行し、ワークロード自動再開機能を提供します。HyperPod のクラスター回復性機能を使用すると、障害のあるノードが、ノード数が 16 個を超えるクラスター内の正常なノードに置き換えられた後、最後に保存したチェックポイントからワークロードを再開できます。詳細についてはSageMaker HyperPod クラスターの回復性を参照してください。

クラスターをログ記録および管理する

SageMaker HyperPod リソース使用率メトリクスとライフサイクルログは Amazon CloudWatch にあり、タグ付けすることにより SageMaker HyperPod リソースを管理できます。CreateCluster API を実行するたびに、個別のログストリームが <cluster-name>-<timestamp> 形式の名前で作成されます。ログストリームでは、ホスト名、失敗したライフサイクルスクリプトの名前、stdout や stderr などの失敗したスクリプトからの出力を確認できます。詳細については、「SageMaker HyperPod クラスター管理」を参照してください。

SageMaker AI ツールとの互換性

SageMaker HyperPod を使用すると、SageMaker AI 分散データ並列処理 (SMDDP) ライブラリなど、SageMaker AI が提供する AWS 最適化された集合通信ライブラリを使用してクラスターを設定できます。 SageMaker SMDDP ライブラリは、NVIDIA A100 GPU を搭載した最もパフォーマンスの高い SageMaker AI 機械学習インスタンスの AWS コンピューティングおよびネットワークインフラストラクチャに最適化されたAllGatherオペレーションを実装します。 GPUs 詳細についてはHyperPod で Slurm を使用して分散トレーニングワークロードを実行するを参照してください。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

付録

SageMaker HyperPod の使用開始

次のトピック

SageMaker HyperPod の使用開始

前のトピック:

付録

ヘルプが必要ですか?

Cookie の設定を選択する

Cookie の設定をカスタマイズする

Essential

Performance

Functional

Advertising

Cookie の設定を保存できません