翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker HyperPod での Slurm サポートを使用すると、機械学習 (ML) ワークロードを実行し、大規模言語モデル (LLM)、拡散モデル、基盤モデル (FM) などの最先端のモデルを開発するための回復力のあるクラスターをプロビジョニングできます。 AWS Trainium、NVIDIA A100、H100 Graphical Processing Units (GPU) などの何千ものアクセラレーターを搭載した大規模なコンピューティングクラスターの構築と維持に伴う差別化されていない重リフトを排除することで、FMs の開発を加速します。 H100 GPUs アクセラレーターで障害が発生すると、SageMaker HyperPod の回復機能によりクラスターインスタンスが自動的に検出されて置き換えられるため、ML ワークロードの実行に集中できます。さらに、SageMaker HyperPod のライフサイクル設定のサポートにより、ニーズに最適なコンピューティング環境をカスタマイズし、Amazon SageMaker AI 分散トレーニングライブラリで設定して最適なパフォーマンスを実現できます AWS。
クラスターを操作する
SageMaker HyperPod クラスターは、コンソールユーザーインターフェイス (UI) を介してグラフィカルに、および AWS コマンドラインインターフェイス (CLI) または を介してプログラムで作成、設定、保守できます AWS SDK for Python (Boto3)。Amazon VPC を使用すると、クラスターネットワークを保護でき、最速のスループットを提供する Amazon FSx for Lustre などの VPC 内のリソースによってクラスターを設定することもできます。さらに、クラスターインスタンスグループにさまざまな IAM ロールを付与し、クラスターリソースとユーザーが操作できるアクションを制限することもできます。詳細についてはSageMaker HyperPod オペレーションを参照してください。
ML 環境を設定する
SageMaker HyperPod は、HyperPod クラスターに ML 環境をセットアップする SageMaker HyperPod DLAMI を実行します。ユースケースをサポートするライフサイクルスクリプトを提供することにより、DLAMI に追加のカスタマイズを設定できます。ライフサイクルスクリプトの設定方法の詳細については、「SageMaker HyperPod の使用開始に関するチュートリアル」と「ライフサイクルスクリプトを使用して SageMaker HyperPod クラスターをカスタマイズする」を参照してください。
ジョブをスケジュールする
HyperPod クラスターを正常に作成すると、クラスターユーザーはクラスターノード (ヘッドノードやコントローラーノード、ログインノード、ワーカーノードなど) にログインし、機械学習ワークロードを実行するジョブをスケジュールできます。詳細についてはSageMaker HyperPod クラスター上のジョブを参照してください。
ハードウェア障害からの回復性
SageMaker HyperPod はクラスターノードでヘルスチェックを実行し、ワークロード自動再開機能を提供します。HyperPod のクラスター回復性機能を使用すると、障害のあるノードが、ノード数が 16 個を超えるクラスター内の正常なノードに置き換えられた後、最後に保存したチェックポイントからワークロードを再開できます。詳細についてはSageMaker HyperPod クラスターの回復性を参照してください。
クラスターをログ記録および管理する
SageMaker HyperPod リソース使用率メトリクスとライフサイクルログは Amazon CloudWatch にあり、タグ付けすることにより SageMaker HyperPod リソースを管理できます。CreateCluster
API を実行するたびに、個別のログストリームが <cluster-name>-<timestamp>
形式の名前で作成されます。ログストリームでは、ホスト名、失敗したライフサイクルスクリプトの名前、stdout
や stderr
などの失敗したスクリプトからの出力を確認できます。詳細については、「SageMaker HyperPod クラスター管理」を参照してください。
SageMaker AI ツールとの互換性
SageMaker HyperPod を使用すると、SageMaker AI 分散データ並列処理 (SMDDP) ライブラリなど、SageMaker AI が提供する AWS 最適化された集合通信ライブラリを使用してクラスターを設定できます。 SageMaker SMDDP ライブラリは、NVIDIA A100 GPU を搭載した最もパフォーマンスの高い SageMaker AI 機械学習インスタンスの AWS コンピューティングおよびネットワークインフラストラクチャに最適化されたAllGather
オペレーションを実装します。 GPUs 詳細についてはHyperPod で Slurm を使用して分散トレーニングワークロードを実行するを参照してください。