Amazon SageMaker HyperPod クイックスタート - Amazon SageMaker AI

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon SageMaker HyperPod クイックスタート

このクイックスタートでは、Slurm および Amazon EKS (EKS) オーケストレーションを使用して最初の HyperPod クラスターを作成する方法について説明します。SageMaker HyperPod の使用を開始するために必要なインフラストラクチャに最適なオーケストレーションを選択します。

Slurm オーケストレーションされた SageMaker HyperPod クラスターを作成する

Slurm オーケストレーションを使用して最初の SageMaker HyperPod クラスターを作成するには、次の手順に従います。

  1. https://console.aws.amazon.com/sagemaker/ で Amazon SageMaker AI コンソールを開きます。

  2. 左側のナビゲーションペインで HyperPod クラスターを選択し、クラスター管理を選択します。

  3. SageMaker HyperPod クラスターページで、HyperPod クラスターの作成を選択します。

  4. HyperPod クラスターの作成ドロップダウンで、Slurm でオーケストレーションされた を選択します。

  5. クラスター作成ページで、クイックセットアップを選択します。このオプションを使用すると、デフォルト設定ですぐに開始できます。SageMaker AI は、クラスターの作成中に VPC、サブネット、セキュリティグループ、Amazon S3 バケット、IAM ロール、FSx for Lustre などの新しいリソースを作成します。

  6. 全般設定で、新しいクラスターの名前を指定します。クラスターの作成後に名前を変更することはできません。

  7. インスタンスグループで、グループの追加を選択します。インスタンスグループごとに異なる方法で設定でき、さまざまなインスタンスタイプを持つ複数のインスタンスグループで構成される異種クラスターを作成できます。クラスターをデプロイするには、少なくとも 1 つのインスタンスグループを追加する必要があります。一度に 1 つのインスタンスグループを追加できます。複数のインスタンスグループを作成するには、インスタンスグループごとにプロセスを繰り返します。

    インスタンスグループを追加するには、次の手順に従います。

    1. インスタンスグループタイプで、インスタンスグループのタイプを選択します。このクイックスタートでは、 のコントローラー (ヘッド)my-controller-group、 のログインmy-login-group、 のコンピューティング (ワーカー) を選択しますworker-group-1

    2. Name に、インスタンスグループの名前を指定します。このクイックスタートでは、my-controller-group、、my-login-groupおよび という名前の 3 つのインスタンスグループを作成しますworker-group-1

    3. インスタンス容量については、オンデマンド容量またはトレーニングプランを選択してコンピューティングリソースを予約します。

    4. インスタンスタイプで、インスタンスグループのインスタンスを選択します。このクイックスタートでは、 ml.c5.xlargemy-controller-groupml.m5.4xlargemy-login-groupml.trn1.32xlargeに を選択しますworker-group-1

      アカウントで十分なクォータを持つインスタンスタイプを選択するか、「」の手順に従って追加のクォータをリクエストしてくださいSageMaker HyperPod クォータ

    5. インスタンス数には、クラスター使用量のインスタンスクォータを超えない整数を指定します。このクイックスタートでは、3 つのグループすべてに 1 と入力します。

    6. ターゲットアベイラビリティーゾーンで、インスタンスをプロビジョニングするアベイラビリティーゾーンを選択します。アベイラビリティーゾーンは、高速コンピューティングキャパシティーの場所に対応する必要があります。

    7. インスタンスあたりの追加のストレージボリューム (GB) - オプションで、1~16384 の整数を指定して、追加の Elastic Block Store (EBS) ボリュームのサイズをギガバイト (GB) 単位で設定します。EBS ボリュームは、インスタンスグループの各インスタンスにアタッチされます。追加の EBS ボリュームのデフォルトのマウントパスは /opt/sagemaker です。クラスターが正常に作成されたら、クラスターインスタンス (ノード) に SSH 接続し、df -h コマンドを実行して EBS ボリュームが正しくマウントされているかどうかを確認できます。追加の EBS ボリュームをアタッチすると、「Amazon Elastic Block Store ユーザーガイド」の「Amazon EBS ボリューム」セクションで説明されているように、インスタンスから独立した永続性を持つ安定したストレージが実現します。

    8. インスタンスグループの追加 を選択します。

  8. クイック設定のデフォルト設定で、デフォルト設定を確認します。このセクションでは、クラスター作成プロセス中に作成されるすべての新しい AWS リソースを含む、クラスター作成のすべてのデフォルト設定を一覧表示します。

  9. [Submit] を選択してください。

詳細については、「SageMaker AI コンソールを使用した SageMaker HyperPod の開始方法」を参照してください。

EKS オーケストレーションされた SageMaker HyperPod クラスターを作成する

Amazon EKS オーケストレーションを使用して最初の SageMaker HyperPod クラスターを作成するには、次の手順に従います。

  1. https://console.aws.amazon.com/sagemaker/ で Amazon SageMaker AI コンソールを開きます。

  2. 左側のナビゲーションペインで HyperPod クラスターを選択し、クラスター管理を選択します。

  3. SageMaker HyperPod クラスターページで、HyperPod クラスターの作成を選択します。

  4. HyperPod クラスターの作成ドロップダウンで、Amazon EKS によってオーケストレーションされた を選択します。

  5. クラスター作成ページで、クイック設定を選択します。このオプションを使用すると、デフォルト設定をすぐに開始できます。SageMaker AI は、クラスターの作成中に VPC、サブネット、セキュリティグループ、Amazon S3 バケット、IAM ロール、FSx for Lustre などの新しいリソースを作成します。

  6. 全般設定で、新しいクラスターの名前を指定します。クラスターの作成後に名前を変更することはできません。

  7. インスタンスグループで、グループの追加を選択します。インスタンスグループごとに異なる方法で設定でき、さまざまなインスタンスタイプを持つ複数のインスタンスグループで構成される異種クラスターを作成できます。クラスターをデプロイするには、少なくとも 1 つのインスタンスグループを追加する必要があります。一度に 1 つのインスタンスグループを追加できます。複数のインスタンスグループを作成するには、インスタンスグループごとにプロセスを繰り返します。

    インスタンスグループを追加するには、次の手順に従います。

    1. インスタンスグループタイプで、標準または制限付きインスタンスグループ (RIG) を選択します。通常、追加のセキュリティ制限なしで汎用コンピューティング環境を提供する Standard を選択します。制限付きインスタンスグループ (RIG) は、Amazon Nova などの基本モデルのカスタマイズに特化した環境です。Amazon Nova モデルのカスタマイズ用に RIG を設定する方法の詳細については、「」を参照してくださいAmazon SageMaker HyperPod での Amazon Nova のカスタマイズ HyperPod

    2. Name に、インスタンスグループの名前を指定します。

    3. インスタンス容量 では、オンデマンド容量またはトレーニングプランのいずれかを選択して、コンピューティングリソースを予約します。

    4. インスタンスタイプで、インスタンスグループのインスタンスを選択します。アカウントで十分なクォータを持つインスタンスタイプを選択するか、「SageMaker HyperPod クォータ」に従って追加のクォータをリクエストしてください。

    5. インスタンス数には、クラスター使用量のインスタンスクォータを超えない整数を指定します。このクイックスタートでは、3 つのグループすべてに 1 と入力します。

    6. ターゲットアベイラビリティーゾーンで、インスタンスをプロビジョニングするアベイラビリティーゾーンを選択します。アベイラビリティーゾーンは、高速コンピューティングキャパシティーの場所に対応する必要があります。

    7. インスタンスあたりの追加のストレージボリューム (GB) - オプションで、1~16384 の整数を指定して、追加の Elastic Block Store (EBS) ボリュームのサイズをギガバイト (GB) 単位で設定します。EBS ボリュームは、インスタンスグループの各インスタンスにアタッチされます。追加の EBS ボリュームのデフォルトのマウントパスは /opt/sagemaker です。クラスターが正常に作成されたら、クラスターインスタンス (ノード) に SSH 接続し、df -h コマンドを実行して EBS ボリュームが正しくマウントされているかどうかを確認できます。追加の EBS ボリュームをアタッチすると、「Amazon Elastic Block Store ユーザーガイド」の「Amazon EBS ボリューム」セクションで説明されているように、インスタンスから独立した永続性を持つ安定したストレージが実現します。

    8. インスタンスのディープヘルスチェックで、オプションを選択します。ディープヘルスチェックは、作成中およびソフトウェア更新後にインスタンスの状態をモニタリングし、有効にすると再起動または置換によって障害のあるインスタンスを自動的に復旧します。

    9. インスタンスグループの追加 を選択します。

  8. クイック設定のデフォルト設定で、デフォルト設定を確認します。このセクションでは、クラスター作成プロセス中に作成されるすべての新しい AWS リソースを含む、クラスター作成のすべてのデフォルト設定を一覧表示します。

  9. [Submit] を選択してください。

詳細については、「Amazon EKS オーケストレーションを使用した SageMaker HyperPod クラスターの作成」を参照してください。

ワークロードの送信

サンプルワークロードを送信するには、以下のワークショップチュートリアルに従ってください。