本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在計算節點初始化中看到錯誤
看到Node bootstrap error
在 clustermgtd.log
這個問題與計算節點無法引導有關。如需有關如何偵錯受叢集保護模式問題的資訊,請參閱如何調試受保護模式。
我設定了隨需容量保留 (ODC) 或區域預留執行個體
ODC,其中包含具有多個網路介面的執行個體,例如 P4d、P4de 和特雷尼姆 (Trn) AWS
在叢集配置檔中,檢查HeadNode
是否位於公用子網路中,以及計算節點是否位於私有子網路中。
ODC 是目標性的 OCRS
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.
即使我已經按照/opt/slurm/etc/pcluster/run_instances_overrides.json
中給出的說明進行操作,也可以看到 使用隨需容量保留 (ODCR) 啟動執行個體
如果您將 3.1.1 到 3.2.1 AWS ParallelCluster 版與目標 OCRs 搭配使用,而且您也使用執行個體覆寫 JSON 檔案,則可能是您沒有正確格式化 JSON 檔案。您可能會在中看到錯誤clustermgtd.log
,如下所示:
Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.
執行下列命令來驗證 JSON 檔案格式是否正確:
$
echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq
查看Found RunInstances parameters override.
叢集clustermgtd.log
建立失敗或執行作業失敗slurm_resume.log
時
如果您使用執行個體覆寫 JSON 檔案,請檢查檔案中是否正確設定佇列名稱和計算資源名稱。/opt/slurm/etc/pcluster/run_instances_overrides.json
看到An error occurred (InsufficientInstanceCapacity)
我何slurm_resume.log
時無法運行作業,或者clustermgtd.log
當我無法創建集群時
使用 PG-ODCR (放置組)
使用關聯的放置群組建立 ODCR 時,組態檔案中必須使用相同的放置群組名稱。在叢集配置中設定對應的放置群組名稱。
使用區域預留執行個體
如果您在叢集配置true
中將區域預留執行個體與PlacementGroup
/Enabled
to 搭配使用,則可能會看到錯誤訊息,如下所示:
We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.
您可能會看到這個問題,是因為區域預留執行個體並未放置在相同的 UC (或 Spine) 中,這可能會在使用置放群組時造成容量不足錯誤 (ICE)。您可以停用叢集配置中的 [PlacementGroup
群組] 設定,以判斷叢集是否可以配置執行個體,以檢查此情況。
An error occurred (VcpuLimitExceeded)
在我無法運行作業slurm_resume.log
時看到,或者在clustermgtd.log
我無法創建集群時看到
針對您使用的特定 Amazon EC2 執行個體類型,檢查您帳戶的 vCPU 限制。如果您看到的 vCPUs 數量少於您要求的 vCPU 數量為零,請求提高限制。如需如何檢視目前限制和請求新限制的相關資訊,請參閱 Amazon EC2 使用者指南中的 Amazon EC2 服務配額。
An error occurred (InsufficientInstanceCapacity)
在我無法運行作業slurm_resume.log
時看到,或者在clustermgtd.log
我無法創建集群時看到
您遇到容量不足的問題。請按照 https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/
查看節點DOWN
處於狀態 Reason (Code:InsufficientInstanceCapacity)...
您遇到容量不足的問題。請按照 https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/
看到cannot change locale (en_US.utf-8) because it has an invalid name
在 slurm_resume.log
如果您的yum
安裝程序不成功,而且地區設定設定處於不一致的狀態,就可能會發生這種情況。例如,當使用者終止安裝程序時,可能會造成這個問題。
若要確認原因,請採取下列動作:
-
執行
su - pcluster-admin
。殼層會顯示錯誤,例如,
cannot change locale...no such file or directory
。 -
執行
localedef --list
。返回一個空列表或不包含默認語言環境。
-
使用
yum history
和檢查最後一個yum
命令yum history info #ID
。最後一個 ID 是否有Return-Code: Success
?如果最後一個 ID 沒有
Return-Code: Success
,則安裝後指令碼可能無法成功執行。
若要修正此問題,請嘗試使用yum reinstall glibc-all-langpacks
. 重建之後,如果問題已修正,則不su - pcluster-admin
會顯示錯誤或警告。
以前的情況都不適用於我的情況
要疑難排解計算節點初始化問題,請參閱解決節點初始化問題。
請檢查您的案例是否涵蓋在的「GitHub 已知問題
如需其他支援,請參閱其他支援。