コンピューティンティングノードの初期化のエラーが表示されている - AWS ParallelCluster

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

コンピューティンティングノードの初期化のエラーが表示されている

clustermgtd.logNode bootstrap error が表示されている

この問題は、コンピューティンティングノードがブートストラップで失敗していることに関連しています。クラスター保護モードの問題をデバッグする方法の詳細については、「保護モードをデバッグする方法」を参照してください。

オンデマンドキャパシティ予約 (ODCR) またはゾーンレベルのリザーブドインスタンスを設定しました。

P4d, P4de、複数のネットワークインターフェイスを持つインスタンスを含む ODCRs AWS

クラスター設定ファイルで、HeadNode がパブリックサブネットにあり、コンピューティングノードがプライベートサブネットにあることを確認します。

ODCR が ターゲット ODCRS

ODCR (オンデマンドキャパシティ予約) を使用してインスタンスを起動する の指示に従って既に /opt/slurm/etc/pcluster/run_instances_overrides.json を配置したのに Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. が表示されている

ターゲット ODCRs で AWS ParallelCluster バージョン 3.1.1 から 3.2.1 を使用していて、実行インスタンスが JSON ファイル よりも優先される場合、JSON ファイルが正しくフォーマットされていない可能性があります。clustermgtd.log で次のようなエラーが表示されることがあります。

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.

次を実行して、JSON ファイル形式が正しいことを確認します。

$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq

クラスターの作成に失敗したときは clustermgtd.log で、またはジョブの実行に失敗したときは slurm_resume.logFound RunInstances parameters override. が表示されている

JSON ファイルをオーバーライドしてインスタンスを実行するを使用している場合は、/opt/slurm/etc/pcluster/run_instances_overrides.json ファイルでキュー名とコンピューティングリソース名を正しく設定していることを確認します。

ジョブの実行に失敗したとき slurm_resume.log で、またはクラスターの作成に失敗したとき clustermgtd.logAn error occurred (InsufficientInstanceCapacity) が表示されている

PG-ODCR (プレイスメントグループ ODCR) を使用する

関連するプレイスメントグループを使用して ODCR を作成する場合、設定ファイルでは同じプレイスメントグループ名を使用する必要があります。クラスター設定で対応するプレイスメントグループ名を設定します。

ゾーンレベルのリザーブドインスタンスを使用する

クラスター設定で PlacementGroup/Enabledtrue としてゾーンレベルのリザーブドインスタンスを使用している場合、次のようなエラーが表示されることがあります。

We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.

これは、ゾーンレベルのリザーブドインスタンスが同じ UC (またはスパイン) に配置されていないために発生することがあります。プレイスメントグループを使用しているときに、容量不足エラー (ICE) が発生することがあります。クラスター設定の PlacementGroup グループ設定を無効にして、クラスターがインスタンスを割り当てることができるかどうかを判断することにより、このケースについて確認できます。

ジョブの実行に失敗したとき slurm_resume.log で、またはクラスターの作成に失敗したとき clustermgtd.logAn error occurred (VcpuLimitExceeded) が表示されている

使用している特定の EC2 インスタンスタイプについて、アカウントの vCPU の制限を確認します。vCPU の数がゼロまたはリクエストしている数より少ない場合は、制限の引き上げをリクエストします。現在の制限を表示し、新しい制限をリクエストする方法については、Amazon EC2 ユーザーガイド」の「Amazon EC2 サービスクォータAmazon EC2」を参照してください。

ジョブの実行に失敗したとき slurm_resume.log で、またはクラスターの作成に失敗したとき clustermgtd.logAn error occurred (InsufficientInstanceCapacity) が表示されている

容量不足の問題が発生しています。https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/ に従って問題をトラブルシューティングします。

ノードが Reason (Code:InsufficientInstanceCapacity)... と共に DOWN ステータスで表示されている

容量不足の問題が発生しています。https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/ に従って問題をトラブルシューティングします。 AWS ParallelClusterの高速容量不足フェイルオーバーモードの詳細については、「」を参照してくださいSlurm クラスタ高速容量不足フェイルオーバー

slurm_resume.logcannot change locale (en_US.utf-8) because it has an invalid name が表示されている

これは、yum のインストールプロセスで失敗してロケール設定に一貫性がない状態のままになっている場合に発生することがあります。例えば、これはユーザーがインストールプロセスを終了したときに発生することがあります。

原因を確認するには、次のアクションを実行します。
  • su - pcluster-admin を実行します。

    シェルに、cannot change locale...no such file or directory などのエラーが表示されます。

  • localedef --list を実行します。

    空のリストを返すか、デフォルトロケールを含んでいません。

  • 最後の yum コマンドおよび yum historyyum history info #ID を確認します。最後の ID に Return-Code: Success が含まれていますか。

    最後の ID に Return-Code: Success が含まれていない場合、インストール後のスクリプトが正常に実行されていない可能性があります。

問題を解決するには、yum reinstall glibc-all-langpacks を使用してロケールを再構築してください。再構築後、問題が修正されているなら su - pcluster-admin でエラーや警告は表示されません。

前のシナリオはどれも私の状況には当てはまりません。

コンピューティングノードの初期化の問題のトラブルシューティングについては、「ノードの初期化に関する問題のトラブルシューティング」を参照してください。

シナリオが「」のGitHub 「 の既知の問題」でカバーされているかどうかを確認します GitHub。 AWS ParallelCluster

追加のサポートについては、「追加のサポート」を参照してください。