SageMaker HyperPod

SageMaker HyperPod は、機械学習 (ML) ワークロードを実行し、大規模言語 state-of-the-art モデル (LLMs)、拡散モデル、基盤モデル (FMs) などのモデルを開発するための回復力のあるクラスターをプロビジョニングするのに役立ちます。 AWS Trainium や NVIDIA A100 や H100 グラフィカルプロセッシングユニット (GPU) などの数千のアクセラレーターを搭載した大規模なコンピューティングクラスターの構築と維持に伴う差別化されていない重リフトを排除することで、FMs の開発を加速します。 H100 GPUs アクセラレーターが失敗すると、自己修復クラスターは障害のあるハードウェアをその場で自動的に検出して置き換えるため、中断することなく数週間から数か月間 ML ワークロードの実行に集中できます。さらに、を使用すると SageMaker HyperPod、ニーズに最適なコンピューティング環境をカスタマイズし、Amazon SageMaker 分散トレーニングライブラリで設定して、で最適なパフォーマンスを実現できます AWS。

クラスターの運用

SageMaker HyperPod クラスターは、コンソールユーザーインターフェイス (UI) を介してグラフィカルに作成、設定、保守でき、 AWS コマンドラインインターフェイス (CLI) またはを介してプログラム的に作成、設定、保守できます AWS SDK for Python (Boto3)。Amazon VPC を使用すると、クラスターネットワークを保護し、最速のスループットを提供する Amazon FSx for Lustre などの VPC 内のリソースを使用してクラスターを設定することもできます。また、クラスターインスタンスグループに異なる IAM ロールを付与したり、クラスターリソースとユーザーが操作できるアクションを制限したりすることもできます。詳細については、「運用 SageMaker HyperPod」を参照してください。

ML 環境の設定

SageMaker HyperPod はを実行しSageMaker HyperPod DLAMI、 HyperPod クラスターに ML 環境を設定します。ユースケースをサポートするライフサイクルスクリプトを提供することで、DLAMI に追加のカスタマイズを設定できます。ライフサイクルスクリプトの設定方法の詳細については、の開始方法 SageMaker HyperPod「」および「」を参照してくださいSageMaker HyperPod ライフサイクル設定のベストプラクティス。

ジョブのスケジュール

HyperPod クラスターを正常に作成すると、クラスターユーザーはクラスターノード (ヘッドノードやコントローラーノード、ログインノード、ワーカーノードなど) にログインし、機械学習ワークロードを実行するジョブをスケジュールできます。詳細については、「 SageMaker HyperPod クラスターでジョブを実行する」を参照してください。

ハードウェア障害に対する耐障害性

SageMaker HyperPod はクラスターノードでヘルスチェックを実行し、ワークロードの自動再開機能を提供します。のクラスター回復機能を使用すると HyperPod、障害のあるノードが 16 個を超えるノードを持つクラスター内の正常なノードに置き換えられた後、最後に保存したチェックポイントからワークロードを再開できます。詳細については、「SageMaker HyperPod クラスターの耐障害性」を参照してください。

クラスターのログ記録と管理

SageMaker HyperPod リソース使用率メトリクスとライフサイクルログは、Amazon で見つけ CloudWatch、タグ付けして SageMaker HyperPod リソースを管理できます。CreateCluster API の実行ごとに、 <cluster-name>-<timestamp>という名前の個別のログストリームが形式で作成されます。ログストリームでは、ホスト名、失敗したライフサイクルスクリプトの名前、および stdoutやなどの失敗したスクリプトからの出力を確認できますstderr。詳細については、「SageMaker HyperPod クラスター管理」を参照してください。

SageMaker ツールとの互換性

を使用すると SageMaker HyperPod、分散データ並列処理 (SMDDP) ライブラリなど SageMaker、が提供する AWS 最適化された集合通信ライブラリを使用してクラスターを設定できます。 SageMaker SMDDP ライブラリは、NVIDIA A100 GPU を搭載した最もパフォーマンスの高い SageMaker 機械学習インスタンスの AWS コンピューティングおよびネットワークインフラストラクチャに最適化されたAllGatherオペレーションを実装します。 GPUs 詳細については、「で Slurm を使用して分散トレーニングワークロードを実行する SageMaker HyperPod」を参照してください。

トピック

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

ユーザーにカスタムイメージへのアクセスを提供する

前提条件