翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
コンピューティンティングノードの初期化のエラーが表示されている
clustermgtd.log
に Node bootstrap error
が表示されている
この問題は、コンピューティンティングノードがブートストラップで失敗していることに関連しています。クラスター保護モードの問題をデバッグする方法の詳細については、「保護モードをデバッグする方法」を参照してください。
オンデマンドキャパシティ予約 (ODCR) またはゾーンレベルのリザーブドインスタンスを設定しました。
P4d, P4de、複数のネットワークインターフェイスを持つインスタンスを含む ODCRs AWS
クラスター設定ファイルで、HeadNode
がパブリックサブネットにあり、コンピューティングノードがプライベートサブネットにあることを確認します。
ODCR が ターゲット ODCRS
ODCR (オンデマンドキャパシティ予約) を使用してインスタンスを起動する の指示に従って既に /opt/slurm/etc/pcluster/run_instances_overrides.json
を配置したのに Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.
が表示されている
ターゲット ODCRs で AWS ParallelCluster バージョン 3.1.1 から 3.2.1 を使用していて、実行インスタンスが JSON ファイル よりも優先される場合、JSON ファイルが正しくフォーマットされていない可能性があります。clustermgtd.log
で次のようなエラーが表示されることがあります。
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.
次を実行して、JSON ファイル形式が正しいことを確認します。
$
echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
クラスターの作成に失敗したときは clustermgtd.log
で、またはジョブの実行に失敗したときは slurm_resume.log
で Found RunInstances parameters override.
が表示されている
JSON ファイルをオーバーライドしてインスタンスを実行するを使用している場合は、/opt/slurm/etc/pcluster/run_instances_overrides.json
ファイルでキュー名とコンピューティングリソース名を正しく設定していることを確認します。
ジョブの実行に失敗したとき slurm_resume.log
で、またはクラスターの作成に失敗したとき clustermgtd.log
で An error occurred (InsufficientInstanceCapacity)
が表示されている
PG-ODCR (プレイスメントグループ ODCR) を使用する
関連するプレイスメントグループを使用して ODCR を作成する場合、設定ファイルでは同じプレイスメントグループ名を使用する必要があります。クラスター設定で対応するプレイスメントグループ名を設定します。
ゾーンレベルのリザーブドインスタンスを使用する
クラスター設定で PlacementGroup
/Enabled
を true
としてゾーンレベルのリザーブドインスタンスを使用している場合、次のようなエラーが表示されることがあります。
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
これは、ゾーンレベルのリザーブドインスタンスが同じ UC (またはスパイン) に配置されていないために発生することがあります。プレイスメントグループを使用しているときに、容量不足エラー (ICE) が発生することがあります。クラスター設定の PlacementGroup
グループ設定を無効にして、クラスターがインスタンスを割り当てることができるかどうかを判断することにより、このケースについて確認できます。
ジョブの実行に失敗したとき slurm_resume.log
で、またはクラスターの作成に失敗したとき clustermgtd.log
で An error occurred (VcpuLimitExceeded)
が表示されている
使用している特定の EC2 インスタンスタイプについて、アカウントの vCPU の制限を確認します。vCPU の数がゼロまたはリクエストしている数より少ない場合は、制限の引き上げをリクエストします。現在の制限を表示し、新しい制限をリクエストする方法については、Amazon EC2 ユーザーガイド」の「Amazon EC2 サービスクォータAmazon EC2」を参照してください。
ジョブの実行に失敗したとき slurm_resume.log
で、またはクラスターの作成に失敗したとき clustermgtd.log
で An error occurred (InsufficientInstanceCapacity)
が表示されている
容量不足の問題が発生しています。https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/
ノードが Reason (Code:InsufficientInstanceCapacity)...
と共に DOWN
ステータスで表示されている
容量不足の問題が発生しています。https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/
slurm_resume.log
に cannot change locale (en_US.utf-8) because it has an invalid name
が表示されている
これは、yum
のインストールプロセスで失敗してロケール設定に一貫性がない状態のままになっている場合に発生することがあります。例えば、これはユーザーがインストールプロセスを終了したときに発生することがあります。
原因を確認するには、次のアクションを実行します。
-
su - pcluster-admin
を実行します。シェルに、
cannot change locale...no such file or directory
などのエラーが表示されます。 -
localedef --list
を実行します。空のリストを返すか、デフォルトロケールを含んでいません。
-
最後の
yum
コマンドおよびyum history
とyum history info #ID
を確認します。最後の ID にReturn-Code: Success
が含まれていますか。最後の ID に
Return-Code: Success
が含まれていない場合、インストール後のスクリプトが正常に実行されていない可能性があります。
問題を解決するには、yum reinstall glibc-all-langpacks
を使用してロケールを再構築してください。再構築後、問題が修正されているなら su - pcluster-admin
でエラーや警告は表示されません。
前のシナリオはどれも私の状況には当てはまりません。
コンピューティングノードの初期化の問題のトラブルシューティングについては、「ノードの初期化に関する問題のトラブルシューティング」を参照してください。
シナリオが「」のGitHub 「 の既知の問題
追加のサポートについては、「追加のサポート」を参照してください。