嘗試建立叢集 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

嘗試建立叢集

使用 AWS ParallelCluster 版本 3.5.0 及更新版本建立叢集,且叢集建立失敗且--rollback-on-failure設為時false,請使用 pcluster describe-cluster CLI 命令取得狀態和失敗資訊。在這種情況下,預期clusterStatuspcluster describe-cluster輸出是CREATE_FAILED。檢查輸出中的failures部分以找到failureCodefailureReason。然後,在以下部分中,找到相符failureCode的其他疑難排解說明。如需詳細資訊,請參閱 pcluster describe-cluster

在下列各節中,我們建議您檢查 head 節點上的記錄檔,例如/var/log/cfn-init.log/var/log/chef-client.log檔案。如需有關 AWS ParallelCluster 記錄檔及其檢視方式的詳細資訊,請參閱調試的關鍵日誌擷取和保留記錄

如果您沒有failureCode,請瀏覽至 AWS CloudFormation 主控台以檢視叢集堆疊。檢查其他資源的HeadNodeWaitCondition或失敗,以尋找其他失敗詳細資訊。Status Reason如需詳細資訊,請參閱 查看 AWS CloudFormation 事件 CREATE_FAILED。檢查頭節點上的/var/log/cfn-init.log/var/log/chef-client.log文件。

failureCodeOnNodeConfiguredExecutionFailure

  • 為什麼會失敗?

    您在組態中OnNodeConfigured的 head 節點區段中提供了自訂指令碼,以建立叢集。但是,自訂指令碼無法執行。

  • 如何解決?

    檢查/var/log/cfn-init.log檔案以進一步瞭解失敗,以及如何修正自訂指令碼中的問題。接近此記錄檔結尾時,您可能會在訊息後看到與OnNodeConfigured指令碼相關的執行資Running command runpostinstall訊。

failureCodeOnNodeConfiguredDownloadFailure

  • 為什麼會失敗?

    您在組態中OnNodeConfigured的 head 節點區段中提供了自訂指令碼,以建立叢集。不過,自訂指令碼無法下載。

  • 如何解決?

    請確定 URL 有效,而且存取權設定正確。如需有關自訂啟動程序指令碼組態的詳細資訊,請參閱自訂引導動作

    檢查/var/log/cfn-init.log檔案。接近此記錄檔結尾時,您可能會在訊Running command runpostinstall息後看到與OnNodeConfigured指令碼處理相關的執行資訊,包括下載。

failureCodeOnNodeConfiguredFailure

  • 為什麼會失敗?

    您在組態中OnNodeConfigured的 head 節點區段中提供了自訂指令碼,以建立叢集。不過,叢集部署中使用自訂指令碼失敗。無法確定立即原因,需要進行額外的調查。

  • 如何解決?

    檢查/var/log/cfn-init.log檔案。接近此記錄檔結尾時,您可能會在訊息後看到與OnNodeConfigured指令碼處理相關的執行資Running command runpostinstall訊。

failureCodeOnNodeStartExecutionFailure

  • 為什麼會失敗?

    您在組態中OnNodeStart的 head 節點區段中提供了自訂指令碼,以建立叢集。但是,自訂指令碼無法執行。

  • 如何解決?

    檢查/var/log/cfn-init.log檔案以進一步瞭解失敗,以及如何修正自訂指令碼中的問題。接近此記錄檔結尾時,您可能會在訊息後看到與OnNodeStart指令碼相關的執行資Running command runpreinstall訊。

failureCodeOnNodeStartDownloadFailure

  • 為什麼會失敗?

    您在組態中OnNodeStart的 head 節點區段中提供了自訂指令碼,以建立叢集。不過,自訂指令碼無法下載。

  • 如何解決?

    請確定 URL 有效,而且存取權設定正確。如需有關自訂啟動程序指令碼組態的詳細資訊,請參閱自訂引導動作

    檢查/var/log/cfn-init.log檔案。接近此記錄檔結尾時,您可能會在訊Running command runpreinstall息後看到與OnNodeStart指令碼處理相關的執行資訊,包括下載。

failureCodeOnNodeStartFailure

  • 為什麼會失敗?

    您在組態中OnNodeStart的 head 節點區段中提供了自訂指令碼,以建立叢集。不過,叢集部署中使用自訂指令碼失敗。無法確定立即原因,需要進行額外的調查。

  • 如何解決?

    檢查/var/log/cfn-init.log檔案。接近此記錄檔結尾時,您可能會在訊息後看到與OnNodeStart指令碼處理相關的執行資Running command runpreinstall訊。

failureCodeEbsMountFailure

  • 為什麼會失敗?

    叢集配置中定義的 EBS 磁碟區無法掛載。

  • 如何解決?

    檢查/var/log/chef-client.log檔案中的失敗詳細資訊。

failureCodeEfsMountFailure

  • 為什麼會失敗?

    叢集組態中定義的 Amazon EFS 磁碟區無法掛接。

  • 如何解決?

    如果您定義了現有的 Amazon EFS 檔案系統,請確定叢集和檔案系統之間允許流量。如需詳細資訊,請參閱 SharedStorageEfsSettings//FileSystemId

    檢查/var/log/chef-client.log檔案中的失敗詳細資訊。

failureCodeFsxMountFailure

  • 為什麼會失敗?

    叢集組態中定義的 Amazon FSx 檔案系統無法掛載。

  • 如何解決?

    如果您定義了現有的 Amazon FSx 檔案系統,請確定叢集和檔案系統之間允許流量。如需詳細資訊,請參閱 SharedStorageFsxLustreSettings//FileSystemId

    檢查/var/log/chef-client.log檔案中的失敗詳細資訊。

failureCodeRaidMountFailure

  • 為什麼會失敗?

    叢集配置中定義的 RAID 卷冊無法掛載。

  • 如何解決?

    檢查/var/log/chef-client.log檔案中的失敗詳細資訊。

failureCodeAmiVersionMismatch

  • 為什麼會失敗?

    用於建立自訂 AMI 的 AWS ParallelCluster 版本與用於設定叢集的 AWS ParallelCluster 版本不同。在 CloudFormation 主控台中,檢視叢集 CloudFormation 堆疊詳細資料,並檢查HeadNodeWaitCondition以取得有關 AWS ParallelCluster 版本和 AMI 的其他詳細資料。Status Reason如需詳細資訊,請參閱 查看 AWS CloudFormation 事件 CREATE_FAILED

  • 如何解決?

    確保用於創建自定義 AMI 的 AWS ParallelCluster 版本與用於配置集群的 AWS ParallelCluster 版本相同。您可以變更自訂 AMI 版本或 pcluster CLI 版本以使其相同。

failureCodeInvalidAmi

  • 為什麼會失敗?

    自定義 AMI 無效,因為它不是使用 AWS ParallelCluster.

  • 如何解決?

    使用pcluster build-image指令將 AMI 設為父映像來建立 AMI。如需詳細資訊,請參閱 pcluster build-image

failureCodefailureReason無法設置頭節點。HeadNodeBootstrapFailure

  • 為什麼會失敗?

    無法確定立即原因,需要進行額外的調查。例如,可能是叢集處於受保護狀態,這可能是因為無法佈建靜態運算叢集所造成。

  • 如何解決?

    檢查/var/log/chef-client.log.檔案中的失敗詳細資訊。

    注意

    如果您看到RuntimeError例外狀況Cluster state has been set to PROTECTED mode due to failures detected in static node provisioning,表示叢集處於受保護狀態。如需詳細資訊,請參閱 如何調試受保護模式

failureCodefailureReason叢集建立逾時。HeadNodeBootstrapFailure

  • 為什麼會失敗?

    根據預設,叢集建立完成的時間限制為 30 分鐘。如果叢集建立尚未在此時間範圍內完成,叢集建立會失敗,並顯示逾時錯誤。叢集建立可能會因為不同的原因而逾時。例如,逾時失敗可能是由於頭節點建立失敗、網路問題、在頭節點執行時間過長的自訂指令碼、在計算節點中執行的自訂指令碼中產生錯誤,或是計算節點佈建的等待時間過長。無法確定立即原因,需要進行額外的調查。

  • 如何解決?

    檢查/var/log/cfn-init.log/var/log/chef-client.log檔案以取得失敗詳細資訊。如需有關 AWS ParallelCluster 記錄檔及如何取得記錄檔的詳細資訊,請參閱調試的關鍵日誌擷取和保留記錄

    您可能會在這些日誌中發現以下內容。

    • 看到Waiting for static fleet capacity provisioning附近的盡頭 chef-client.log

      這表示叢集建立在等待靜態節點開機時逾時。如需詳細資訊,請參閱 在計算節點初始化中看到錯誤

    • 查看OnNodeConfiguredOnNodeStart頭節點腳本未在結束時完成 cfn-init.log

      這表示OnNodeConfiguredOnNodeStart自訂指令碼需要很長時間才能執行,並造成逾時錯誤。檢查您的自定義腳本是否存在可能導致其長時間運行的問題。如果您的自訂指令碼需要很長時間才能執行,請考慮將DevSettings區段新增至叢集配置檔,以變更逾時限制,如下列範例所示:

      DevSettings: Timeouts: HeadNodeBootstrapTimeout: 1800 # default setting: 1800 seconds
    • 找不到日誌,或者頭節點未成功創建

      頭節點可能未成功創建,並且無法找到日誌。在 CloudFormation 主控台中,檢視叢集堆疊詳細資料,以檢查其他失敗詳細資料。

failureCodefailureReason無法啟動頭節點。HeadNodeBootstrapFailure

  • 為什麼會失敗?

    無法確定立即原因,需要進行額外的調查。

  • 如何解決?

    檢查/var/log/cfn-init.log/var/log/chef-client.log檔案。

failureCodeResourceCreationFailure

  • 為什麼會失敗?

    在叢集建立程序期間,建立部分資源失敗。失敗可能由於各種原因而發生。例如,資源建立失敗可能是容量問題或 IAM 政策設定錯誤所造成。

  • 如何解決?

    在 CloudFormation 主控台中,檢視叢集堆疊,以檢查其他資源建立失敗詳細資訊。

failureCodeClusterCreationFailure

  • 為什麼會失敗?

    無法確定立即原因,需要進行額外的調查。

  • 如何解決?

    在 CloudFormation 主控台中,檢視叢集堆疊並檢查以Status Reason尋找其他失敗詳細資訊。HeadNodeWaitCondition

    檢查/var/log/cfn-init.log/var/log/chef-client.log檔案。

看到 CloudFormation , WaitCondition timed out... 在, 堆

如需詳細資訊,請參閱 failureCodefailureReason叢集建立逾時。HeadNodeBootstrapFailure

看到 CloudFormation , Resource creation cancelled 在, 堆

如需詳細資訊,請參閱 failureCode 是 ResourceCreationFailure

查看Failed to run cfn-init...或 AWS CloudFormation 堆棧中的其他錯誤

檢查/var/log/cfn-init.log和以取/var/log/chef-client.log得其他失敗詳細資訊。

看到chef-client.log結束 INFO: Waiting for static fleet capacity provisioning

這與等待靜態節點開機時的叢集建立逾時有關。如需詳細資訊,請參閱 在計算節點初始化中看到錯誤

看得見 Failed to run preinstall or postinstall in cfn-init.log

您在叢集配置HeadNode區段中有OnNodeConfiguredOnNodeStart指令碼。指令碼無法正常運作。檢查/var/log/cfn-init.log檔案中的自訂指令碼錯誤詳細資訊。

看到 CloudFormation , This AMI was created with xxx, but is trying to be used with xxx... 在, 堆

如需詳細資訊,請參閱 failureCode 是 AmiVersionMismatch

看到 CloudFormation , This AMI was not baked by AWS ParallelCluster... 在, 堆

如需詳細資訊,請參閱 failureCode 是 InvalidAmi

看到pcluster create-cluster命令無法在本地運行

~/.parallelcluster/pcluster-cli.log在本機檔案系統中檢查失敗詳細資訊。

其他支援

請遵循中的疑難排解指引疑難排解叢集部署問

請檢查您的案例是否涵蓋在的「GitHub 已知問題」 AWS ParallelCluster 中 GitHub。

如需其他支援,請參閱其他支援