SageMaker HyperPod - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker HyperPod

SageMaker HyperPod は、機械学習 (ML) ワークロードを実行し、大規模言語 state-of-the-art モデル (LLMs)、拡散モデル、基盤モデル (FMs) などのモデルを開発するための回復力のあるクラスターをプロビジョニングするのに役立ちます。 AWS Trainium や NVIDIA A100 や H100 グラフィカルプロセッシングユニット (GPU) などの数千のアクセラレーターを搭載した大規模なコンピューティングクラスターの構築と維持に伴う差別化されていない重リフトを排除することで、FMs の開発を加速します。 H100 GPUs アクセラレーターが失敗すると、自己修復クラスターは障害のあるハードウェアをその場で自動的に検出して置き換えるため、中断することなく数週間から数か月間 ML ワークロードの実行に集中できます。さらに、 を使用すると SageMaker HyperPod、ニーズに最適なコンピューティング環境をカスタマイズし、Amazon SageMaker 分散トレーニングライブラリで設定して、 で最適なパフォーマンスを実現できます AWS。

クラスターの運用

SageMaker HyperPod クラスターは、コンソールユーザーインターフェイス (UI) を介してグラフィカルに作成、設定、保守でき、 AWS コマンドラインインターフェイス (CLI) または を介してプログラム的に作成、設定、保守できます AWS SDK for Python (Boto3)。Amazon VPC を使用すると、クラスターネットワークを保護し、最速のスループットを提供する Amazon FSx for Lustre などの VPC 内のリソースを使用してクラスターを設定することもできます。また、クラスターインスタンスグループに異なる IAM ロールを付与したり、クラスターリソースとユーザーが操作できるアクションを制限したりすることもできます。詳細については、「運用 SageMaker HyperPod」を参照してください。

ML 環境の設定

SageMaker HyperPod は を実行しSageMaker HyperPod DLAMI、 HyperPod クラスターに ML 環境を設定します。ユースケースをサポートするライフサイクルスクリプトを提供することで、DLAMI に追加のカスタマイズを設定できます。ライフサイクルスクリプトの設定方法の詳細については、の開始方法 SageMaker HyperPod「」および「」を参照してくださいSageMaker HyperPod ライフサイクル設定のベストプラクティス

ジョブのスケジュール

HyperPod クラスターを正常に作成すると、クラスターユーザーはクラスターノード (ヘッドノードやコントローラーノード、ログインノード、ワーカーノードなど) にログインし、機械学習ワークロードを実行するジョブをスケジュールできます。詳細については、「 SageMaker HyperPod クラスターでジョブを実行する」を参照してください。

ハードウェア障害に対する耐障害性

SageMaker HyperPod はクラスターノードでヘルスチェックを実行し、ワークロードの自動再開機能を提供します。のクラスター回復機能を使用すると HyperPod、障害のあるノードが 16 個を超えるノードを持つクラスター内の正常なノードに置き換えられた後、最後に保存したチェックポイントからワークロードを再開できます。詳細については、「SageMaker HyperPod クラスターの耐障害性」を参照してください。

クラスターのログ記録と管理

SageMaker HyperPod リソース使用率メトリクスとライフサイクルログは、Amazon で見つけ CloudWatch、タグ付けして SageMaker HyperPod リソースを管理できます。CreateCluster API の実行ごとに、 <cluster-name>-<timestamp>という名前の個別のログストリームが 形式で作成されます。ログストリームでは、ホスト名、失敗したライフサイクルスクリプトの名前、および stdoutや などの失敗したスクリプトからの出力を確認できますstderr。詳細については、「SageMaker HyperPod クラスター管理」を参照してください。

SageMaker ツールとの互換性

を使用すると SageMaker HyperPod、分散データ並列処理 (SMDDP) ライブラリ など SageMaker、 が提供する AWS 最適化された集合通信ライブラリを使用してクラスターを設定できます。 SageMaker SMDDP ライブラリは、NVIDIA A100 GPU を搭載した最もパフォーマンスの高い SageMaker 機械学習インスタンスの AWS コンピューティングおよびネットワークインフラストラクチャに最適化されたAllGatherオペレーションを実装します。 GPUs 詳細については、「で Slurm を使用して分散トレーニングワークロードを実行する SageMaker HyperPod」を参照してください。