ジョブの自動再開を有効にするスケジュールオプションを使用してジョブを実行する設定ファイルからジョブを実行する

SageMaker HyperPod CLI を使用したジョブの実行

ジョブを実行するには、EKS クラスターに Kubeflow Training Operator がインストールされていることを確認します。詳細については、「Helm を使用した Amazon EKS クラスターへのパッケージのインストール」を参照してください。

hyperpod get-cluster コマンドを実行して、使用可能な HyperPod クラスターのリストを取得します。


hyperpod get-clusters

hyperpod connect-cluster を実行して、HyperPod クラスターをオーケストレーションする EKS クラスターを使用して SageMaker HyperPod CLI を設定します。


hyperpod connect-cluster --cluster-name <hyperpod-cluster-name>

hyperpod start-job コマンドを使用してジョブを実行します。次のコマンドは、コマンドと必要なオプションを示しています。


hyperpod start-job \
    --job-name <job-name>
    --image <docker-image-uri>
    --entry-script <entrypoint-script>
    --instance-type <ml.instance.type>
    --node-count <integer>

hyperpod start-job コマンドには、ジョブの自動再開やジョブスケジューリングなど、さまざまなオプションも用意されています。

ジョブの自動再開を有効にする

hyperpod start-job コマンドには、ジョブの自動再開を指定する以下のオプションも用意されています。ジョブの自動再開を有効にして SageMaker HyperPod ノードの回復性機能を使用するには、restart-policy オプションの値を OnFailure に設定する必要があります。ジョブは、kubeflow 名前空間、またはプレフィックス hyperpod が付けられた名前空間で実行されている必要があります。

[--auto-resume <bool>] #オプション。失敗後にジョブの自動再開が有効になります。デフォルトは false です
[--max-retry <int>] #オプション。自動再開が true の場合、max-retry のデフォルト値は 1 です (指定されていない場合)
[--restart-policy <enum>] #オプション。PyTorchJob 再起動ポリシー。指定できる値は Always、OnFailure、Never、または ExitCode です。デフォルト値は OnFailure です。


hyperpod start-job \
    ... // required options \
    --auto-resume true \
    --max-retry 3 \
    --restart-policy OnFailure

スケジュールオプションを使用してジョブを実行する

hyperpod start-job コマンドには、キューイングメカニズムを使用してジョブを設定するための以下のオプションが用意されています。

注記

EKS クラスターに Kueue をインストールする必要があります。をインストールしていない場合は、「」の手順に従いますSageMaker HyperPod タスクガバナンスのセットアップ。

[--scheduler-type <enum>] #オプション。スケジューラタイプを指定します。デフォルトは Kueue です。
[--queue-name <string>] #オプション。ジョブで送信するローカルキューまたはクラスターキューの名前を指定します。キューは、を使用してクラスター管理者が作成する必要がありますCreateComputeQuota。
[--priority <string>] #オプション。ワークロード優先度クラスの名前を指定します。これはクラスター管理者が作成する必要があります。


hyperpod start-job \
    ... // required options
    --scheduler-type Kueue \
    --queue-name high-priority-queue \
    --priority high

設定ファイルからジョブを実行する

代わりに、ジョブに必要なすべてのパラメータを含むジョブ設定ファイルを作成し、--config-file オプションを使用してこの設定ファイルを hyperpod start-job コマンドに渡します。この場合は以下のようになります。

必要なパラメータを使用してジョブ設定ファイルを作成します。ベースライン設定ファイルについては、SageMaker HyperPod CLI GitHub リポジトリでジョブ設定ファイルを参照してください。
次のように設定ファイルを使用してジョブを開始します。
```
hyperpod start-job --config-file /path/to/test_job.yaml
```

ヒント

hyperpod start-job コマンドのパラメータの詳細なリストについては、SageMaker HyperPod CLI GitHub リポジトリの README.md にある「Submitting a Job」セクションを参照してください。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

HyperPod CLI コマンド

を使用したジョブの実行 kubectl