Cookie の設定を選択する

当社は、当社のサイトおよびサービスを提供するために必要な必須 Cookie および類似のツールを使用しています。当社は、パフォーマンス Cookie を使用して匿名の統計情報を収集することで、お客様が当社のサイトをどのように利用しているかを把握し、改善に役立てています。必須 Cookie は無効化できませんが、[カスタマイズ] または [拒否] をクリックしてパフォーマンス Cookie を拒否することはできます。

お客様が同意した場合、AWS および承認された第三者は、Cookie を使用して便利なサイト機能を提供したり、お客様の選択を記憶したり、関連する広告を含む関連コンテンツを表示したりします。すべての必須ではない Cookie を受け入れるか拒否するには、[受け入れる] または [拒否] をクリックしてください。より詳細な選択を行うには、[カスタマイズ] をクリックしてください。

Amazon SageMaker HyperPod

フォーカスモード
Amazon SageMaker HyperPod - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

SageMaker HyperPod を使用すると、機械学習 (ML) ワークロードを実行し、大規模言語モデル (LLM)、拡散モデル、基盤モデル (FM) などの最先端のモデルを開発するための回復力のあるクラスターをプロビジョニングできます。 AWS Trainium や NVIDIA A100、H100 Graphical Processing Units (GPU) などの何千ものアクセラレーターを搭載した大規模なコンピューティングクラスターの構築と保守に伴う差別化につながらない高負荷の軽減により、FMs の開発を加速します。 H100 GPUs アクセラレーターで障害が発生すると、SageMaker HyperPod の回復機能によりクラスターインスタンスが自動的に検出されて置き換えられるため、ML ワークロードの実行に集中できます。

開始するには、「SageMaker HyperPod を使用するための前提条件」を確認して「AWS Identity and Access Management SageMaker HyperPod 用の」をセットアップし、SageMaker HyperPod によりサポートされている次のオーケストレーターオプションのいずれかを選択します。

SageMaker HyperPod での Slurm サポート

SageMaker HyperPod は、オープンソースのワークロードマネージャーである Slurm と統合することにより、回復力のあるクラスターで機械学習ワークロードを実行するためのサポートを提供します。SageMaker HyperPod での Slurm サポートにより、Slurm クラスター設定を通じたシームレスなクラスターオーケストレーションが可能になり、SageMaker HyperPod クラスターでヘッドノード、ログインノード、ワーカーノードをセットアップできます。この統合により、クラスターで ML ワークロードを実行するための Slurm ベースのジョブスケジューリングと、ジョブスケジューリングのためのクラスターノードへの直接アクセスも容易になります。HyperPod のライフサイクル設定のサポートにより、特定の要件を満たすようクラスターのコンピューティング環境をカスタマイズできます。さらに、Amazon SageMaker AI 分散トレーニングライブラリを活用することで、 AWS コンピューティングとネットワークリソースに対するクラスターのパフォーマンスを最適化できます。詳細については、「Slurm を使用して SageMaker HyperPod クラスターをオーケストレーションする」を参照してください。

SageMaker HyperPod での Amazon EKS サポート

SageMaker HyperPod は Amazon EKS とも統合されており、長時間実行され回復力のあるコンピューティングクラスターで基盤モデルの大規模なトレーニングを可能にします。これにより、クラスター管理者ユーザーは HyperPod クラスターをプロビジョニングして EKS コントロールプレーンにアタッチでき、動的キャパシティ管理、クラスターインスタンスへの直接アクセス、および回復機能が可能になります。データサイエンティストの場合、HyperPod での Amazon EKS サポートにより、トレーニング基盤モデル用のコンテナ化されたワークロードの実行、EKS クラスターの推論、Kubeflow PyTorch トレーニング用のジョブ自動再開機能の活用が可能になります。このアーキテクチャには、VPC 内の EKS クラスター (コントロールプレーン) と HyperPod クラスター (ワーカーノード) 間の 1 対 1 のマッピングが含まれ、大規模な ML ワークロードを実行するための緊密に統合されたソリューションが提供されます。詳細については、「Amazon EKS を使用して SageMaker HyperPod クラスターをオーケストレーションする」を参照してください。

AWS リージョン SageMaker HyperPod でサポートされる

SageMaker HyperPod は以下から入手できます AWS リージョン。

  • us-east-1

  • us-east-2

  • us-west-1

  • us-west-2

  • eu-central-1

  • eu-north-1

  • eu-west-1

  • eu-west-2

  • ap-south-1

  • ap-southeast-1

  • ap-southeast-2

  • ap-southeast-4

  • ap-northeast-1

  • sa-east-1

プライバシーサイト規約Cookie の設定
© 2025, Amazon Web Services, Inc. or its affiliates.All rights reserved.