AWS PCS 中 Slurm 版本的版本備註 - AWS PCS

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

AWS PCS 中 Slurm 版本的版本備註

本主題說明 AWS PCS 目前支援的每個 Slurm 版本的重要變更。建議您在升級叢集時,檢閱新舊版本之間的變更。

在 AWS PCS 中實作的變更

如需 Slurm 24.11 的詳細資訊,請參閱下列出版物:

在 AWS PCS 中實作的變更
  • 新的 Slurm Step Manager 模組現在預設為在 AWS PCS 中啟用。本單元透過將步驟管理從中央控制器卸載到運算節點,大幅改善具有大量步驟用量的環境中的系統並行性,提供顯著的好處。為了支援此組態和更好的隔離PrologEpilog程序執行,會啟用新的 prolog 旗標 (ContainAlloc)。

  • 啟用從控制器到運算節點的階層式通訊,以最佳化 Slurm 節點內通訊,進而改善可擴展性和效能。此外,路由組態現在使用分割區節點清單從控制器進行通訊,而不是外掛程式的預設路由演算法,以增強系統彈性。

  • 新的雜湊外掛程式會HashPlugin=hash/sha3取代先前的 hash/k12 plugin。這現在預設為在 AWS PCS 叢集中啟用。

  • Slurm 控制器日誌現在包含對所有傳入遠端程序呼叫 (RPC) 的增強型稽核功能slurmctld。日誌包含來源地址、已驗證的使用者,以及連線處理之前的 RPC 類型。

如需 Slurm 24.05 的詳細資訊,請參閱下列出版物:

您可以在 AWS PCS 中變更 Slurm 設定
  • SuspendTime 預設為 60。使用 AWS PCS scaleDownIdleTimeInSeconds組態參數進行設定。如需詳細資訊,請參閱 AWS PCS API 參考ClusterSlurmConfiguration 資料類型的 scaleDownIdleTimeInSeconds 參數。

  • MaxJobCountMaxArraySize是根據您為叢集選擇的大小。如需詳細資訊,請參閱 PCS CreateCluster API 參考中 API 動作的 size 參數。 AWS

  • SelectTypeParameters Slurm 設定預設為 CR_CPU。您可以提供它做為值slurmCustomSettings,讓 在建立叢集時設定它。如需詳細資訊,請參閱 AWS PCS API 參考CreateCluster API 動作和 SlurmCustomSettingslurmCustomSettings 參數。

  • 您可以在叢集層級設定 Epilog Prolog和 。您可以提供它做為值slurmCustomSettings,讓 在建立叢集時設定它。如需詳細資訊,請參閱 AWS PCS API 參考中的 CreateClusterSlurmCustomSetting

  • 您可以在運算節點群組層級設定 RealMemory Weight和 。您可以在建立運算節點群組時,提供它做為 的值slurmCustomSettings。如需詳細資訊,請參閱 AWS PCS API 參考中的 CreateComputeNodeGroupSlurmCustomSetting