クラスターの作成を試行する - AWS ParallelCluster
failureCode が OnNodeConfiguredExecutionFailurefailureCode が OnNodeConfiguredDownloadFailurefailureCode が OnNodeConfiguredFailurefailureCode が OnNodeStartExecutionFailurefailureCode が OnNodeStartDownloadFailurefailureCode が OnNodeStartFailurefailureCode が EbsMountFailurefailureCode が EfsMountFailurefailureCode が FsxMountFailurefailureCode が RaidMountFailurefailureCode が AmiVersionMismatchfailureCode が InvalidAmifailureCode が HeadNodeBootstrapFailure と failureReason で、ヘッドノードの設定に失敗した。failureCode は HeadNodeBootstrapFailure で、failureReason クラスター作成がタイムアウトした。failureCode は HeadNodeBootstrapFailure で、failureReason はヘッドノードのブートストラップに失敗した。failureCode が ResourceCreationFailurefailureCode が ClusterCreationFailure CloudFormation スタックWaitCondition timed out...での の表示 CloudFormation スタックResource creation cancelledでの の表示AWS CloudFormation スタックで Failed to run cfn-init...またはその他のエラーが表示されるINFO: Waiting for static fleet capacity provisioning の最後に chef-client.log が表示されているFailed to run preinstall or postinstall in cfn-init.log が表示されている CloudFormation スタックThis AMI was created with xxx, but is trying to be used with xxx...での の表示 CloudFormation スタックThis AMI was not baked by AWS ParallelCluster...での の表示pcluster create-cluster コマンドがローカルで実行できないことが表示されている追加のサポート

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

クラスターの作成を試行する

AWS ParallelCluster バージョン 3.5.0 以降を使用してクラスターを作成し、 を --rollback-on-failureに設定してクラスターの作成が失敗した場合falsepcluster describe-cluster CLI コマンドを使用してステータスと障害情報を取得します。この場合、pcluster describe-clusterclusterStatus の正常な出力は CREATE_FAILED です。出力の failures セクションを確認して、failureCodefailureReason を見つけます。次のセクションで一致する failureCode を探して、その他のトラブルシューティングについてのヘルプを見つけます。詳細については、「pcluster describe-cluster」を参照してください。

次のセクションでは、/var/log/cfn-init.log/var/log/chef-client.log ファイルなど、ヘッドノードのログを確認することをお勧めします。 AWS ParallelCluster ログとその表示方法の詳細については、デバッグ用のキーログ「」および「」を参照してくださいログの取得と保存

がない場合はfailureCode、 AWS CloudFormation コンソールに移動してクラスタースタックを表示します。HeadNodeWaitConditionStatus Reason、または他のリソースの障害を確認して、失敗に関するその他の詳細を確認します。詳細については、「で AWS CloudFormation イベントを表示する CREATE_FAILED」を参照してください。ヘッドノードの /var/log/cfn-init.log および /var/log/chef-client.log ファイルを確認します。

failureCodeOnNodeConfiguredExecutionFailure

  • 失敗した原因

    クラスターを作成するために、設定のヘッドノードセクションの OnNodeConfigured にカスタムスクリプトを指定しました。しかし、カスタムスクリプトの実行に失敗しました。

  • 解決方法

    /var/log/cfn-init.log ファイルを確認して、障害の詳細とカスタムスクリプトの問題の修正方法を確認します。このログの最後の方で、Running command runpostinstall メッセージの後に OnNodeConfigured スクリプトに関連する実行情報が表示される場合があります。

failureCodeOnNodeConfiguredDownloadFailure

  • 失敗した原因

    クラスターを作成するために、設定のヘッドノードセクションの OnNodeConfigured にカスタムスクリプトを指定しました。しかし、カスタムスクリプトのダウンロードに失敗しました。

  • 解決方法

    URL が有効で、アクセスが正しく設定されていることを確認します。カスタムブートストラップスクリプトの設定に関する詳細については、「カスタムブートストラップアクション」を参照してください。

    /var/log/cfn-init.log ファイルを確認してください。このログの最後の方で、Running command runpostinstall メッセージの後に、ダウンロードを含め OnNodeConfigured スクリプトの処理に関連する実行情報が表示される場合があります。

failureCodeOnNodeConfiguredFailure

  • 失敗した原因

    クラスターを作成するために、設定のヘッドノードセクションの OnNodeConfigured にカスタムスクリプトを指定しました。ただし、クラスターのデプロイにおいてカスタムスクリプトの使用に失敗しました。即時に原因を判断できないため、追加の調査が必要です。

  • 解決方法

    /var/log/cfn-init.log ファイルを確認してください。このログの最後の方で、Running command runpostinstall メッセージの後に OnNodeConfigured スクリプトの処理に関連する実行情報が表示される場合があります。

failureCodeOnNodeStartExecutionFailure

  • 失敗した原因

    クラスターを作成するために、設定のヘッドノードセクションの OnNodeStart にカスタムスクリプトを指定しました。しかし、カスタムスクリプトの実行に失敗しました。

  • 解決方法

    /var/log/cfn-init.log ファイルを確認して、障害の詳細とカスタムスクリプトの問題の修正方法を確認します。このログの最後の方で、Running command runpreinstall メッセージの後に OnNodeStart スクリプトに関連する実行情報が表示される場合があります。

failureCodeOnNodeStartDownloadFailure

  • 失敗した原因

    クラスターを作成するために、設定のヘッドノードセクションの OnNodeStart にカスタムスクリプトを指定しました。しかし、カスタムスクリプトのダウンロードに失敗しました。

  • 解決方法

    URL が有効で、アクセスが正しく設定されていることを確認します。カスタムブートストラップスクリプトの設定に関する詳細については、「カスタムブートストラップアクション」を参照してください。

    /var/log/cfn-init.log ファイルを確認してください。このログの最後の方で、Running command runpreinstall メッセージの後に、ダウンロードを含め OnNodeStart スクリプトの処理に関連する実行情報が表示される場合があります。

failureCodeOnNodeStartFailure

  • 失敗した原因

    クラスターを作成するために、設定のヘッドノードセクションの OnNodeStart にカスタムスクリプトを指定しました。ただし、クラスターのデプロイにおいてカスタムスクリプトの使用に失敗しました。即時に原因を判断できないため、追加の調査が必要です。

  • 解決方法

    /var/log/cfn-init.log ファイルを確認してください。このログの最後の方で、Running command runpreinstall メッセージの後に OnNodeStart スクリプトの処理に関連する実行情報が表示される場合があります。

failureCodeEbsMountFailure

  • 失敗した原因

    クラスター設定で定義されている EBS ボリュームのマウントに失敗しました。

  • 解決方法

    失敗の詳細について、/var/log/chef-client.log ファイルを確認します。

failureCodeEfsMountFailure

  • 失敗した原因

    クラスター設定で定義されている Amazon EFS ボリュームのマウントに失敗しました。

  • 解決方法

    既存の Amazon EFS ファイルシステムを定義した場合は、クラスターとファイルシステムの間のトラフィックが許可されていることを確認します。詳細については、「SharedStorage」/「EfsSettings」/「FileSystemId」を参照してください。

    失敗の詳細について、/var/log/chef-client.log ファイルを確認します。

failureCodeFsxMountFailure

  • 失敗した原因

    クラスター設定で定義されている Amazon FSx ファイルシステムのマウントに失敗しました。

  • 解決方法

    既存の Amazon FSx ファイルシステムを定義した場合は、クラスターとファイルシステムの間のトラフィックが許可されていることを確認します。詳細については、「SharedStorage」/「FsxLustreSettings」/「FileSystemId」を参照してください。

    失敗の詳細について、/var/log/chef-client.log ファイルを確認します。

failureCodeRaidMountFailure

  • 失敗した原因

    クラスター設定で定義されている RAID ボリュームのマウントに失敗しました。

  • 解決方法

    失敗の詳細について、/var/log/chef-client.log ファイルを確認します。

failureCodeAmiVersionMismatch

  • 失敗した原因

    カスタム AMI の作成に使用される AWS ParallelCluster バージョンは、クラスターの設定に使用される AWS ParallelCluster バージョンとは異なります。 CloudFormation コンソールで、クラスター CloudFormation スタックの詳細を表示し、 Status Reasonで をチェックHeadNodeWaitConditionして、 AWS ParallelCluster バージョンと AMI に関する追加の詳細を確認します。詳細については、「で AWS CloudFormation イベントを表示する CREATE_FAILED」を参照してください。

  • 解決方法

    カスタム AMI の作成に使用した AWS ParallelCluster バージョンが、クラスターの設定に使用した AWS ParallelCluster バージョンと同じであることを確認します。カスタム AMI のバージョン、または pcluster CLI のバージョンのいずれかを変更して同じにすることができます。

failureCodeInvalidAmi

  • 失敗した原因

    カスタム AMI は、 を使用して構築されていないため無効です AWS ParallelCluster。

  • 解決方法

    pcluster build-image コマンドを使用し、独自の AMI を親イメージにして AMI を作成します。詳細については、「pcluster build-image」を参照してください。

failureCodeHeadNodeBootstrapFailurefailureReason で、ヘッドノードの設定に失敗した。

  • 失敗した原因

    即時に原因を判断できないため、追加の調査が必要です。例えば、クラスターが保護ステータスにある場合や、静的コンピューティングフリートのプロビジョニングの失敗により発生した可能性があります。

  • 解決方法

    失敗の詳細について、/var/log/chef-client.log. ファイルを確認します。

    注記

    RuntimeError 例外 Cluster state has been set to PROTECTED mode due to failures detected in static node provisioning が表示された場合、クラスターは保護ステータスにあります。詳細については、「保護モードをデバッグする方法」を参照してください。

failureCodeHeadNodeBootstrapFailure で、failureReason クラスター作成がタイムアウトした。

  • 失敗した原因

    デフォルトでは、クラスターの作成が完了するのに 30 分の時間制限があります。このタイムフレーム内でクラスターの作成が完了しない場合、クラスターの作成はタイムアウトエラーで失敗します。クラスターの作成は、さまざまな理由でタイムアウトになる可能性があります。例えば、タイムアウトによる失敗は、ヘッドノード作成の失敗、ネットワークの問題、ヘッドノードでの実行に時間がかかりすぎるカスタムスクリプト、コンピューティングノードで実行されるカスタムスクリプトのエラー、またはコンピューティングノードのプロビジョニングの待ち時間が長いことにより発生する可能性があります。即時に原因を判断できないため、追加の調査が必要です。

  • 解決方法

    失敗の詳細について、/var/log/cfn-init.log/var/log/chef-client.log ファイルを確認します。 AWS ParallelCluster ログとその取得方法に関する詳細については、「デバッグ用のキーログ」と「ログの取得と保存」を参照してください。

    これらのログで、次のことが見つかることがあります。

    • chef-client.log の最後の方にある Waiting for static fleet capacity provisioning が表示されている

      これは、静的ノードの電源が入るのを待機しているときにクラスターの作成がタイムアウトしたことを示しています。詳細については、「コンピューティンティングノードの初期化のエラーが表示されている」を参照してください。

    • OnNodeConfigured または OnNodeStart ヘッドノードスクリプトが cfn-init.log の最後で終了していないことが表示されている

      これは、OnNodeConfigured または OnNodeStart で、カスタムスクリプトの実行に時間がかかり、タイムアウトエラーが発生したことを示しています。カスタムスクリプトに、実行に長い時間がかかる問題がないか確認します。カスタムスクリプトの実行に長い時間が必要な場合は、次の例に示されているようにクラスター設定ファイルに DevSettings セクションを追加してタイムアウト制限を変更することを考慮してください。

      DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
    • ログが見つからない、またはヘッドノードが正常に作成されない

      ヘッドノードが正常に作成されず、ログが見つからない可能性があります。 CloudFormation コンソールで、クラスタースタックの詳細を表示して、追加の障害の詳細を確認します。

failureCodeHeadNodeBootstrapFailure で、failureReason はヘッドノードのブートストラップに失敗した。

  • 失敗した原因

    即時に原因を判断できないため、追加の調査が必要です。

  • 解決方法

    /var/log/cfn-init.log/var/log/chef-client.log のファイルを確認します。

failureCodeResourceCreationFailure

  • 失敗した原因

    クラスター作成プロセス中に、一部のリソースの作成に失敗しました。さまざまな理由で失敗が発生します。例えば、リソース作成の失敗は、容量の問題や IAM ポリシーが誤って設定されていることにより発生することがあります。

  • 解決方法

    CloudFormation コンソールで、クラスタースタックを表示して、リソース作成のその他の失敗の詳細を確認します。

failureCodeClusterCreationFailure

  • 失敗した原因

    即時に原因を判断できないため、追加の調査が必要です。

  • 解決方法

    CloudFormation コンソールで、クラスタースタックを表示し、 Status Reasonの をチェックHeadNodeWaitConditionして、その他の障害の詳細を確認します。

    /var/log/cfn-init.log/var/log/chef-client.log のファイルを確認します。

CloudFormation スタックWaitCondition timed out...での の表示

詳細については、「failureCode は HeadNodeBootstrapFailure で、failureReason クラスター作成がタイムアウトした。」を参照してください。

CloudFormation スタックResource creation cancelledでの の表示

詳細については、「failureCode が ResourceCreationFailure」を参照してください。

AWS CloudFormation スタックで Failed to run cfn-init...またはその他のエラーが表示される

失敗に関するその他の詳細について、/var/log/cfn-init.log/var/log/chef-client.log を確認します。

INFO: Waiting for static fleet capacity provisioning の最後に chef-client.log が表示されている

これは、静的ノードの電源が入るのを待機しているときにクラスターの作成がタイムアウトになることと関係しています。詳細については、「コンピューティンティングノードの初期化のエラーが表示されている」を参照してください。

Failed to run preinstall or postinstall in cfn-init.log が表示されている

クラスター設定 の HeadNode セクションに OnNodeConfigured または OnNodeStart スクリプトがあります。このスクリプトが正しく動作していません。カスタムスクリプトのエラーの詳細について、/var/log/cfn-init.log ファイルを確認します。

CloudFormation スタックThis AMI was created with xxx, but is trying to be used with xxx...での の表示

詳細については、「failureCode が AmiVersionMismatch」を参照してください。

CloudFormation スタックThis AMI was not baked by AWS ParallelCluster...での の表示

詳細については、「failureCode が InvalidAmi」を参照してください。

pcluster create-cluster コマンドがローカルで実行できないことが表示されている

失敗の詳細について、ローカルファイルシステムの ~/.parallelcluster/pcluster-cli.log を確認します。

追加のサポート

クラスターデプロイの問題のトラブルシューティング のトラブルシューティングガイダンスに従ってください。

シナリオが「」のGitHub 「既知の問題 AWS ParallelCluster 」でカバーされているかどうかを確認します GitHub。

追加のサポートについては、「追加のサポート」を参照してください。