使用Slurm會計建立叢集 - AWS ParallelCluster

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用Slurm會計建立叢集

瞭解如何使用Slurm帳戶設定和建立叢集。如需詳細資訊,請參閱 Slurm會計與 AWS ParallelCluster

使用命 AWS ParallelCluster 令列介面 (CLI) 或 API 時,您只需為建立或更新 AWS ParallelCluster 映像和叢集時建立的 AWS 資源付費。如需詳細資訊,請參閱 AWS使用的服務 AWS ParallelCluster

AWS ParallelCluster UI 建立在無伺服器架構上,在大多數情況下,您可以在 AWS 免費方案類別中使用它。如需詳細資訊,請參閱 AWS ParallelClusterUI 成本

在本教學課程中,您會使用CloudFormation 快速建立範本 (us-east-1) 來建立 MySQL 無伺服器Amazon Aurora資料庫。範本會指示 CloudFormation 建立所有必要元件,以便在與叢集相同的 VPC 上部署 Amazon Aurora 無伺服器資料庫。此範本也會為叢集與資料庫之間的連線建立基本的網路和安全性組態。

注意

從版本 3.3.0 開始, AWS ParallelCluster 支援使用叢集配置參數 SlurmSettings/資料庫進行Slurm帳戶。

注意

快速創建模板作為一個例子。此範本不涵蓋Slurm會計資料庫伺服器的所有可能使用案例。您有責任建立具有適合生產工作負載之組態和容量的資料庫伺服器。

事前準備:

步驟 1:建立下列項目的 VPC 和子網路 AWS ParallelCluster

若要使用為Slurm會計資料庫提供的 CloudFormation 範本,您必須準備好叢集的 VPC。您可以手動執行此操作,也可以作為使用 AWS ParallelCluster 命令行界面配置和創建集群程序的一部分進行。如果您已經使用過 AWS ParallelCluster,則可能已準備好用於部署叢集和資料庫伺服器的 VPC。

步驟 2:建立資料庫堆疊

使用CloudFormation 快速創建模板(us-east-1)創建用於會計的數據庫堆棧。Slurm該模板需要以下輸入:

  • 資料庫伺服器認證,特別是管理員使用者名稱和密碼。

  • 調整 Amazon Aurora 無伺服器叢集的大小。這取決於預期的叢集載入。

  • 網路參數,特別是用於建立子網路的目標 VPC 和子網路或 CIDR 區塊。

為您的資料庫伺服器選取適當的認證和大小。對於網路選項,您必須使用與 AWS ParallelCluster 叢集部署到的相同 VPC。您可以建立資料庫的子網路,並將它們當做輸入傳遞至範本。或者,為兩個子網路提供兩個脫離的 CIDR 區塊,並讓 CloudFormation 範本為 CIDR 區塊建立兩個子網路。請確定 CIDR 區塊不會與現有的子網路重疊。如果 CIDR 區塊與現有子網路重疊,則無法建立堆疊。

資料庫伺服器需要幾分鐘的時間來建立。

步驟 3:建立啟用Slurm會計功能的叢集

提供的 CloudFormation 模板生成具有一些定義輸出的 CloudFormation 堆棧。從中 AWS Management Console,您可以在 CloudFormation 堆疊檢視的 [輸] 索引標籤中檢視輸出。若要啟用Slurm帳戶,必須在 AWS ParallelCluster 叢集配置檔案中使用其中一些輸出:

使用輸出值更新叢集配置檔案Database參數。使用 pcluster CLI 建立叢集。

$ pcluster create-cluster -n cluster-3.x -c path/to/cluster-config.yaml

建立叢集之後,您可以開始使用Slurm帳號指令,例如sacctmgrsacct