多個佇列的組態 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

多個佇列的組態

多個佇列的組態

使用 AWS ParallelCluster 版本 3 時,您可以SlurmQueues在組態檔案中將設定Schedulerslurm並指定多個佇列,以配置多個佇列。在此模式中,不同的執行個體類型會共存在於組態檔ComputeResources區段中指定的運算節點中。 ComputeResources具有不同例證類型的比例會根據需要向上或縮小SlurmQueues

叢集佇列和計算資源配額
資源 配額

Slurm queues

每個叢集 50 個佇列

Compute resources

每個佇列 50 個運算資源

每個叢集 50 個運算資源

節點計數

佇列中ComputeResources的每個計算資源都必須具有唯一的NameInstanceTypeMinCount、、和MaxCountMinCountMaxCount具有定義佇列中ComputeResources計算資源執行個體範圍的預設值。您也可以為和指定自己MinCount的值MaxCount。中的每個計算資源都ComputeResources是由編號為 1 到值的靜態節點,以MinCount及從的值MinCount到的值編號的動態節點組成MaxCount

範例組態

以下是叢集配置檔的「排程」區段範例。在此配置中有兩個名為queue1queue2和的隊列,每個隊列都具ComputeResources有指定的MaxCount

Scheduling: Scheduler: slurm SlurmQueues: - Name: queue1 ComputeResources: - InstanceType: c5.xlarge MaxCount: 5 Name: c5xlarge - InstanceType: c4.xlarge MaxCount: 5 Name: c4xlarge - Name: queue2 ComputeResources: - InstanceType: c5.xlarge MaxCount: 5 Name: c5xlarge

主機名稱

系統會動態指派啟動至運算叢集的執行個體。會針對每個節點產生主機名稱。默認情況下 AWS ParallelCluster 將使用以下格式的主機名稱:

$HOSTNAME=$QUEUE-$STATDYN-$COMPUTE_RESOURCE-$NODENUM

  • $QUEUE是佇列的名稱。例如,如果SlurmQueues區段的項目Name設定為「queue-name」,則「$QUEUE」就是「queue-name」。

  • $STATDYNst用於靜態節點或dy動態節點。

  • $COMPUTE_RESOURCE是對應於此節點NameComputeResources計算資源。

  • $NODENUM是節點的編號。 $NODENUM動態節點的值介MinCount於一 (1) 與靜態節點的值之間,在一 (1) 和MaxCount之間。MinCount

從上面的示例配置文件中,來自queue1和計算資源的給定節點c5xlarge具有一個主機名:queue1-dy-c5xlarge-1

主機名稱和完整網域名稱 (FQDN) 都是使用 Amazon Route 53 託管區域建立的。FQDN 是$HOSTNAME.$CLUSTERNAME.pcluster,其中$CLUSTERNAME是叢集的名稱。

請注意,Slurm節點名稱也會使用相同的格式。

使用者可以選擇使用支援運算節點的執行個體的預設 Amazon EC2 主機名稱,而不是使用所使用的預設主機名稱格式 AWS ParallelCluster。這可以通過將UseEc2Hostnames參數設置為 true 來完成。但是,Slurm節點名稱將繼續使用預設 AWS ParallelCluster 格式。