多队列模式 - AWS ParallelCluster

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

多队列模式

AWS ParallelCluster2.9.0 版本引入了多队列模式。当设置为slurm并定义设置scheduler时,支持多队列模式。queue_settings此模式允许不同的实例类型在计算节点中共存。包含不同实例类型的计算资源可以根据需要向上或向下扩展。在队列模式下,最多支持五 (5) 个队列,每个[queue]部分最多可以引用三 (3) 个[compute_resource]部分。这些[queue]部分中的每一个都是一个分区Slurm Workload Manager。有关更多信息,请参阅 Slurm多队列模式指南多队列模式教程

队列中的每个[compute_resource]部分必须具有不同的实例类型,并且每个部分进一步[compute_resource]分为静态和动态节点。每个节点的静态节点[compute_resource]的编号从 1 到的值为min_count。每个[compute_resource]节点的动态节点从一 (1) 到 (max_count-min_count) 编号。例如,如果min_count为 2 且max_count为 10,则其动态节点的[compute_resource]编号从一 (1) 到八 (8)。在任何时候,a 中的动态节点数都可能介于零 (0) 和最大值之间[compute_resource]

启动到计算队列的实例是动态分配的。为了帮助管理这个问题,为每个节点生成了主机名。主机名的格式如下所示:

$HOSTNAME=$QUEUE-$STATDYN-$INSTANCE_TYPE-$NODENUM

  • $QUEUE是队列的名称。例如,如果该部分开始[queue queue-name],则 “$QUEUE” 是 “队列名称”。

  • $STATDYNst用于静态节点或dy动态节点。

  • $INSTANCE_TYPEinstance_type设置中的[compute_resource],的实例类型。

  • $NODENUM是节点的编号。 $NODENUMmin_count对于静态节点,介于一 (1) 和的值之间,对于动态节点,介于一 (1min_count) 和 (max_count-) 之间。

主机名和完全合格域名 (FQDN) 都是使用 Amazon Route 53 托管区域创建的。FQDN 是$HOSTNAME.$CLUSTERNAME.pcluster,其中$CLUSTERNAME是用于集群的[cluster]部分的名称。

要将您的配置转换为队列模式,请使用pcluster-config convert命令。它使用名为的单个[queue]部分编写更新的配置[queue compute]。该队列包含一个名为的[compute_resource]部分[compute_resource default][queue compute]和的设置[compute_resource default]已从指定[cluster]部分迁移。