Slurm組態自訂 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

Slurm組態自訂

開始於AWS ParallelCluster版本 3.6.0,您可以自定義slurm.conf Slurm組態中的AWS ParallelCluster叢集配置。

在叢集配置中,您可以自訂Slurm使用下列叢集配置設定的組態參數:

Slurm組態自訂限制和使用時的注意事項AWS ParallelCluster

  • 對於CustomSlurmSettingsCustomSlurmSettingsIncludeFile設置,您只能指定和更新slurm.conf中包括的參數Slurm版這是由AWS ParallelCluster您用來配置叢集的版本。

  • 如果您指定自訂Slurm組態中的任何CustomSlurmSettings參數,AWS ParallelCluster執行驗證檢查並防止設置或更新Slurm與衝突的組態參數AWS ParallelCluster邏輯。該Slurm已知會與之衝突的組態參數AWS ParallelCluster在拒絕清單中識別。拒絕清單可能會在未來變更AWS ParallelCluster版本,如果其他Slurm功能被添加。如需詳細資訊,請參閱拒絕列出Slurm組態參數CustomSlurmSettings

  • AWS ParallelCluster僅檢查參數是否在拒絕清單中。AWS ParallelCluster不驗證您的自定義Slurm配置參數語法或語義。您有責任驗證您的自定義Slurm組態參數。無效的自訂Slurm配置參數可能會導致Slurm可能導致叢集建立和更新失敗的協助程式失敗。

  • 如果您指定自訂Slurm組態CustomSlurmSettingsIncludeFile,AWS ParallelCluster不執行任何驗證。

  • 您可以更新CustomSlurmSettingsCustomSlurmSettingsIncludeFile無需停止和啟動計算叢集。在這種情況下,AWS ParallelCluster重新啟動slurmctld守護進程並運行scontrol reconfigure指令。

    一些Slurm在整個叢集中註冊變更之前,配置參數可能需要不同的作業。例如,他們可能需要重新啟動叢集中的所有精靈。您有責任核實是否AWS ParallelCluster操作足以傳播您的自定義Slurm更新期間的組態參數設定。如果你發現AWS ParallelCluster作業不足,您有責任提供傳播更新設定所需的其他動作,如Slurm文件

拒絕列出Slurm組態參數CustomSlurmSettings

下表列出了具有AWS ParallelCluster拒絕其使用的版本,從版本 3.6.0 開始。CustomSlurmSettings不支援AWS ParallelCluster版本比 3.6.0 版更早的版本。

叢集層級拒絕列出的參數:
Slurm 參數 拒絕上市AWS ParallelCluster版本

CommunicationParameters

3.6.0

Epilog

3.6.0

GresTypes

3.6.0

LaunchParameters

3.6.0

序言

3.6.0

ReconfigFlags

3.6.0

ResumeFailProgram

3.6.0

ResumeProgram

3.6.0

ResumeTimeout

3.6.0

SlurmctldHost

3.6.0

SlurmctldLogFile

3.6.0

SlurmctldParameters

3.6.0

SlurmdLogfile

3.6.0

SlurmUser

3.6.0

SuspendExcNodes

3.6.0

SuspendProgram

3.6.0

SuspendTime

3.6.0

TaskPlugin

3.6.0

TreeWidth

3.6.0

在叢集層級拒絕列出的參數本地Slurm會計整合在叢集配置中配置:
Slurm 參數 拒絕上市AWS ParallelCluster版本

AccountingStorageType

3.6.0

AccountingStorageHost

3.6.0

AccountingStoragePort

3.6.0

AccountingStorageUser

3.6.0

JobAcctGatherType

3.6.0

在佇列 (分割區) 層級拒絕列出的參數,適用於所管理的佇列AWS ParallelCluster:
Slurm 參數 拒絕上市AWS ParallelCluster版本

節點

3.6.0

PartitionName

3.6.0

ResumeTimeout

3.6.0

3.6.0

SuspendTime

3.6.0

計算資源 (節點) 層級拒絕列出的參數 (由管理的計算資源)AWS ParallelCluster:
Slurm 參數 拒絕上市AWS ParallelCluster版本和更高版本

CPU

3.6.0

功能

3.6.0

格雷斯

3.6.0

NodeAddr

3.6.0

NodeHostname

3.6.0

NodeName

3.6.0

Weight

3.7.0