本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用Slurm记账创建集群
学习如何配置和创建带有Slurm记账功能的集群。有关更多信息,请参阅Slurm会计AWS ParallelCluster:
使用AWS ParallelCluster命令行接口 (CLI) 或 API 时,您只需为创建或更新AWS ParallelCluster映像和集群时创建的AWS资源付费。有关更多信息,请参阅AWS使用的服务AWS ParallelCluster:
AWS ParallelCluster用户界面建立在无服务器架构上,在大多数情况下,您可以在AWS免费套餐类别中使用它。有关更多信息,请参阅AWS ParallelCluster用户界面成本:
在本教程中,您将使用CloudFormation 快速创建模板创建Amazon Aurora
注意
从版本 3.3.0 开始,AWS ParallelCluster支持使用集群配置参数 SlurmSettings/数据库进行Slurm记账。
注意
快速创建模板就是一个例子。此模板并未涵盖Slurm会计数据库服务器的所有可能用例。您有责任创建具有适合您的生产工作负载的配置和容量的数据库服务器。
先决条件:
-
AWS ParallelCluster已安装。
-
AWS CLI已安装并配置。
-
您有一个 EC2 key pair。
-
您在其中部署快速创建模板的区域支持 Amazon Aurora MySQL 无服务器 v2。有关更多信息,请参阅适用于 Aurora MySQL 的 Aurora Serverless v2
步骤 1:创建适用于的 VPC 和子网AWS ParallelCluster
要使用提供的Slurm会计数据库 CloudFormation 模板,您必须准备好集群的 VPC。您可以手动执行此操作,也可以作为该使用AWS ParallelCluster命令行界面配置和创建集群过程的一部分进行此操作。如果您已经使用过AWS ParallelCluster,则可能已准备好用于部署集群和数据库服务器的 VPC。
步骤 2:创建数据库堆栈
使用CloudFormation 快速创建模板创建
-
数据库服务器凭证,特别是管理员用户名和密码。
-
Amazon Aurora无服务器集群的大小。这取决于预期的集群负载。
-
网络参数,特别是目标 VPC 和用于创建子网的子网或 CIDR 块。
为您的数据库服务器选择适当的凭据和大小。对于联网选项,您需要使用与AWS ParallelCluster集群部署到的相同 VPC。您可以为数据库创建子网并将其作为输入传递给模板。或者,为两个子网提供两个不相交的 CIDR 块,让 CloudFormation 模板为 CIDR 块创建两个子网。确保 CIDR 块不与现有子网重叠。如果 CIDR 块与现有子网重叠,则无法创建堆栈。
创建数据库服务器需要几分钟时间。
步骤 3:创建启用Slurm记账功能的集群
提供的 CloudFormation 模板生成一个包含一些已定义输出的 CloudFormation 堆栈。在中AWS Management Console,您可以在 CloudFormation 堆栈视图的 “输出” 选项卡中查看输出。要启用Slurm记账,必须在AWS ParallelCluster群集配置文件中使用其中一些输出:
-
DatabaseHost
:用于 SlurmSettings/Database/Uri集群配置参数。 -
DatabaseAdminUser
:用于 SlurmSettings/Database/UserName集群配置参数值。 -
DatabaseSecretArn
:用于 SlurmSettings/Database/PasswordSecretArn集群配置参数。 -
DatabaseClientSecurityGroup
:这是连接到在 HeadNode/Networking/SecurityGroups配置参数中定义的集群头节点的安全组。
使用输出值更新集群配置文件Database
参数。使用 Cpcluster LI 创建集群。
$
pcluster create-cluster -n
cluster-3.x
-cpath/to/cluster-config.yaml
创建集群后,您可以开始使用Slurm记账命令,例如sacctmgr
或sacct
。