在計算節點初始化中看到錯誤 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在計算節點初始化中看到錯誤

看到Node bootstrap errorclustermgtd.log

這個問題與計算節點無法引導有關。如需有關如何偵錯受叢集保護模式問題的資訊,請參閱如何調試受保護模式

我設定了隨需容量保留 (ODC) 或區域預留執行個體

ODC,其中包含具有多個網路介面的執行個體,例如 P4d、P4de 和特雷尼姆 (Trn) AWS

在叢集配置檔中,檢查HeadNode是否位於公用子網路中,以及計算節點是否位於私有子網路中。

ODC 是目標性的 OCRS

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'.即使我已經按照/opt/slurm/etc/pcluster/run_instances_overrides.json中給出的說明進行操作,也可以看到 使用隨需容量保留 (ODCR) 啟動執行個體

如果您將 3.1.1 到 3.2.1 AWS ParallelCluster 版與目標 OCRs 搭配使用,而且您也使用執行個體覆寫 JSON 檔案,則可能是您沒有正確格式化 JSON 檔案。您可能會在中看到錯誤clustermgtd.log,如下所示:

Unable to read file '/opt/slurm/etc/pcluster/run_instances_overrides.json'. Using default: {} in /var/log/parallelcluster/clustermgtd.

執行下列命令來驗證 JSON 檔案格式是否正確:

$ echo /opt/slurm/etc/pcluster/run_instances_overrides.json | jq

查看Found RunInstances parameters override.叢集clustermgtd.log建立失敗或執行作業失敗slurm_resume.log

如果您使用執行個體覆寫 JSON 檔案,請檢查檔案中是否正確設定佇列名稱和計算資源名稱。/opt/slurm/etc/pcluster/run_instances_overrides.json

看到An error occurred (InsufficientInstanceCapacity)我何slurm_resume.log時無法運行作業,或者clustermgtd.log當我無法創建集群時

使用 PG-ODCR (放置組)

使用關聯的放置群組建立 ODCR 時,組態檔案中必須使用相同的放置群組名稱。在叢集配置中設定對應的放置群組名稱

使用區域預留執行個體

如果您在叢集配置true中將區域預留執行個體與PlacementGroup/Enabledto 搭配使用,則可能會看到錯誤訊息,如下所示:

We currently do not have sufficient trn1.32xlarge capacity in the Availability Zone you requested (us-east-1d). Our system will be working on provisioning additional capacity. You can currently get trn1.32xlarge capacity by not specifying an Availability Zone in your request or choosing us-east-1a, us-east-1b, us-east-1c, us-east-1e, us-east-1f.

您可能會看到這個問題,是因為區域預留執行個體並未放置在相同的 UC (或 Spine) 中,這可能會在使用置放群組時造成容量不足錯誤 (ICE)。您可以停用叢集配置中的 [PlacementGroup群組] 設定,以判斷叢集是否可以配置執行個體,以檢查此情況。

An error occurred (VcpuLimitExceeded)在我無法運行作業slurm_resume.log時看到,或者在clustermgtd.log我無法創建集群時看到

針對您使用的特定 Amazon EC2 執行個體類型,檢查您帳戶的 vCPU 限制。如果您看到的 vCPUs 數量少於您要求的 vCPU 數量為零,請求提高限制。如需如何檢視目前限制和請求新限制的相關資訊,請參閱 Amazon EC2 使用者指南中的 Amazon EC2 服務配額

An error occurred (InsufficientInstanceCapacity)在我無法運行作業slurm_resume.log時看到,或者在clustermgtd.log我無法創建集群時看到

您遇到容量不足的問題。請按照 https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/來解決問題。

查看節點DOWN處於狀態 Reason (Code:InsufficientInstanceCapacity)...

您遇到容量不足的問題。請按照 https://aws.amazon.com/premiumsupport/knowledge-center/ec2-insufficient-capacity-errors/來解決問題。如需快速不足容量容錯移轉模式 AWS ParallelCluster的詳細資訊,請參閱。Slurm叢集快速容量不足容錯移轉

看到cannot change locale (en_US.utf-8) because it has an invalid nameslurm_resume.log

如果您的yum安裝程序不成功,而且地區設定設定處於不一致的狀態,就可能會發生這種情況。例如,當使用者終止安裝程序時,可能會造成這個問題。

若要確認原因,請採取下列動作:
  • 執行 su - pcluster-admin

    殼層會顯示錯誤,例如,cannot change locale...no such file or directory

  • 執行 localedef --list

    返回一個空列表或不包含默認語言環境。

  • 使用yum history和檢查最後一個yum命令yum history info #ID。最後一個 ID 是否有Return-Code: Success

    如果最後一個 ID 沒有Return-Code: Success,則安裝後指令碼可能無法成功執行。

若要修正此問題,請嘗試使用yum reinstall glibc-all-langpacks. 重建之後,如果問題已修正,則不su - pcluster-admin會顯示錯誤或警告。

以前的情況都不適用於我的情況

要疑難排解計算節點初始化問題,請參閱解決節點初始化問題

請檢查您的案例是否涵蓋在的「GitHub 已知問題」 AWS ParallelCluster 中 GitHub。

如需其他支援,請參閱其他支援