翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
SageMaker HyperPod を使用すると、機械学習 (ML) ワークロードを実行し、大規模言語モデル (LLM)、拡散モデル、基盤モデル (FM) などの最先端のモデルを開発するための回復力のあるクラスターをプロビジョニングできます。 AWS Trainium や NVIDIA A100、H100 Graphical Processing Units (GPU) などの何千ものアクセラレーターを搭載した大規模なコンピューティングクラスターの構築と保守に伴う差別化につながらない高負荷の軽減により、FMs の開発を加速します。 H100 GPUs アクセラレーターで障害が発生すると、SageMaker HyperPod の回復機能によりクラスターインスタンスが自動的に検出されて置き換えられるため、ML ワークロードの実行に集中できます。
開始するには、「SageMaker HyperPod を使用するための前提条件」を確認して「AWS Identity and Access Management SageMaker HyperPod 用の」をセットアップし、SageMaker HyperPod によりサポートされている次のオーケストレーターオプションのいずれかを選択します。
SageMaker HyperPod での Slurm サポート
SageMaker HyperPod は、オープンソースのワークロードマネージャーである Slurm と統合することにより、回復力のあるクラスターで機械学習ワークロードを実行するためのサポートを提供します。SageMaker HyperPod での Slurm サポートにより、Slurm クラスター設定を通じたシームレスなクラスターオーケストレーションが可能になり、SageMaker HyperPod クラスターでヘッドノード、ログインノード、ワーカーノードをセットアップできます。この統合により、クラスターで ML ワークロードを実行するための Slurm ベースのジョブスケジューリングと、ジョブスケジューリングのためのクラスターノードへの直接アクセスも容易になります。HyperPod のライフサイクル設定のサポートにより、特定の要件を満たすようクラスターのコンピューティング環境をカスタマイズできます。さらに、Amazon SageMaker AI 分散トレーニングライブラリを活用することで、 AWS コンピューティングとネットワークリソースに対するクラスターのパフォーマンスを最適化できます。詳細については、「Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする」を参照してください。
SageMaker HyperPod での Amazon EKS サポート
SageMaker HyperPod は Amazon EKS とも統合されており、長時間実行され回復力のあるコンピューティングクラスターで基盤モデルの大規模なトレーニングを可能にします。これにより、クラスター管理者ユーザーは HyperPod クラスターをプロビジョニングして EKS コントロールプレーンにアタッチでき、動的キャパシティ管理、クラスターインスタンスへの直接アクセス、および回復機能が可能になります。データサイエンティストの場合、HyperPod での Amazon EKS サポートにより、トレーニング基盤モデル用のコンテナ化されたワークロードの実行、EKS クラスターの推論、Kubeflow PyTorch トレーニング用のジョブ自動再開機能の活用が可能になります。このアーキテクチャには、VPC 内の EKS クラスター (コントロールプレーン) と HyperPod クラスター (ワーカーノード) 間の 1 対 1 のマッピングが含まれ、大規模な ML ワークロードを実行するための緊密に統合されたソリューションが提供されます。詳細については、「Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションする」を参照してください。
AWS リージョン SageMaker HyperPod でサポートされる
SageMaker HyperPod は以下から入手できます AWS リージョン。
-
us-east-1
-
us-east-2
-
us-west-1
-
us-west-2
-
eu-central-1
-
eu-north-1
-
eu-west-1
-
eu-west-2
-
ap-south-1
-
ap-southeast-1
-
ap-southeast-2
-
ap-southeast-4
-
ap-northeast-1
-
sa-east-1