本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
多队列模式
AWS ParallelCluster2.9.0 版本引入了多队列模式。当设置为slurm
并定义设置scheduler时,支持多队列模式。queue_settings此模式允许不同的实例类型在计算节点中共存。包含不同实例类型的计算资源可以根据需要向上或向下扩展。在队列模式下,最多支持五 (5) 个队列,每个[queue]部分最多可以引用三 (3) 个[compute_resource]部分。这些[queue]部分中的每一个都是一个分区Slurm Workload Manager。有关更多信息,请参阅 Slurm多队列模式指南 和 多队列模式教程。
队列中的每个[compute_resource]部分必须具有不同的实例类型,并且每个部分进一步[compute_resource]
分为静态和动态节点。每个节点的静态节点[compute_resource]
的编号从 1 到的值为min_count。每个[compute_resource]
节点的动态节点从一 (1) 到 (max_count-min_count
) 编号。例如,如果min_count
为 2 且max_count
为 10,则其动态节点的[compute_resource]
编号从一 (1) 到八 (8)。在任何时候,a 中的动态节点数都可能介于零 (0) 和最大值之间[compute_resource]
。
启动到计算队列的实例是动态分配的。为了帮助管理这个问题,为每个节点生成了主机名。主机名的格式如下所示:
$HOSTNAME=$QUEUE-$STATDYN-$INSTANCE_TYPE-$NODENUM
-
$QUEUE
是队列的名称。例如,如果该部分开始[queue
,则 “queue-name
]$QUEUE
” 是 “队列名称
”。 -
$STATDYN
st
用于静态节点或dy
动态节点。 -
$INSTANCE_TYPE
是instance_type设置中的[compute_resource]
,的实例类型。 -
$NODENUM
是节点的编号。$NODENUM
min_count对于静态节点,介于一 (1) 和的值之间,对于动态节点,介于一 (1min_count
) 和 (max_count-) 之间。
主机名和完全合格域名 (FQDN) 都是使用 Amazon Route 53 托管区域创建的。FQDN 是$HOSTNAME.$CLUSTERNAME.pcluster
,其中$CLUSTERNAME
是用于集群的[cluster]部分的名称。
要将您的配置转换为队列模式,请使用pcluster-config convert命令。它使用名为的单个[queue]部分编写更新的配置[queue compute]
。该队列包含一个名为的[compute_resource]部分[compute_resource default]
。[queue compute]
和的设置[compute_resource default]
已从指定[cluster]部分迁移。