本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
使用Slurm會計建立叢集
瞭解如何使用Slurm帳戶設定和建立叢集。如需詳細資訊,請參閱 Slurm會計與 AWS ParallelCluster。
使用命 AWS ParallelCluster 令列介面 (CLI) 或 API 時,您只需為建立或更新 AWS ParallelCluster 映像和叢集時建立的 AWS 資源付費。如需詳細資訊,請參閱 AWS使用的服務 AWS ParallelCluster。
AWS ParallelCluster UI 建立在無伺服器架構上,在大多數情況下,您可以在 AWS 免費方案類別中使用它。如需詳細資訊,請參閱 AWS ParallelClusterUI 成本。
在本教學課程中,您會使用CloudFormation 快速建立範本 (us-east-1)
注意
從版本 3.3.0 開始, AWS ParallelCluster 支援使用叢集配置參數 SlurmSettings/資料庫進行Slurm帳戶。
注意
快速創建模板作為一個例子。此範本不涵蓋Slurm會計資料庫伺服器的所有可能使用案例。您有責任建立具有適合生產工作負載之組態和容量的資料庫伺服器。
事前準備:
-
AWS ParallelCluster 已安裝。
-
AWS CLI 已安裝並設定。
-
您有一個 EC2 key pair。
-
您在中部署快速建立範本的區域支援 Amazon Aurora MySQL 無伺服器 v2。如需詳細資訊,請參閱使用 Aurora MySQL 的 Aurora 無伺服器 v2。
步驟 1:建立下列項目的 VPC 和子網路 AWS ParallelCluster
若要使用為Slurm會計資料庫提供的 CloudFormation 範本,您必須準備好叢集的 VPC。您可以手動執行此操作,也可以作為使用 AWS ParallelCluster 命令行界面配置和創建集群程序的一部分進行。如果您已經使用過 AWS ParallelCluster,則可能已準備好用於部署叢集和資料庫伺服器的 VPC。
步驟 2:建立資料庫堆疊
使用CloudFormation 快速創建模板(us-east-1)
-
資料庫伺服器認證,特別是管理員使用者名稱和密碼。
-
調整 Amazon Aurora 無伺服器叢集的大小。這取決於預期的叢集載入。
-
網路參數,特別是用於建立子網路的目標 VPC 和子網路或 CIDR 區塊。
為您的資料庫伺服器選取適當的認證和大小。對於網路選項,您必須使用與 AWS ParallelCluster 叢集部署到的相同 VPC。您可以建立資料庫的子網路,並將它們當做輸入傳遞至範本。或者,為兩個子網路提供兩個脫離的 CIDR 區塊,並讓 CloudFormation 範本為 CIDR 區塊建立兩個子網路。請確定 CIDR 區塊不會與現有的子網路重疊。如果 CIDR 區塊與現有子網路重疊,則無法建立堆疊。
資料庫伺服器需要幾分鐘的時間來建立。
步驟 3:建立啟用Slurm會計功能的叢集
提供的 CloudFormation 模板生成具有一些定義輸出的 CloudFormation 堆棧。從中 AWS Management Console,您可以在 CloudFormation 堆疊檢視的 [輸出] 索引標籤中檢視輸出。若要啟用Slurm帳戶,必須在 AWS ParallelCluster 叢集配置檔案中使用其中一些輸出:
-
DatabaseHost
:用於 SlurmSettings/Database/Uri集群配置參數。 -
DatabaseAdminUser
:用於 SlurmSettings/Database/UserName叢集配置參數值。 -
DatabaseSecretArn
:用於 SlurmSettings/Database/PasswordSecretArn集群配置參數。 -
DatabaseClientSecurityGroup
:這是附加到集群的頭節點,這是在 HeadNode/Networking/SecurityGroups配置參數中定義的安全組。
使用輸出值更新叢集配置檔案Database
參數。使用 pcluster CLI 建立叢集。
$
pcluster create-cluster -n
cluster-3.x
-cpath/to/cluster-config.yaml
建立叢集之後,您可以開始使用Slurm帳號指令,例如sacctmgr
或sacct
。