本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
建置 AWS PCS 自訂 AMIs 的軟體安裝程式
AWS 提供可下載的檔案,可在執行個體上安裝 AWS PCS 軟體。 AWS 也提供可下載、編譯和安裝 Slurm 及其相依性相關版本的軟體。您可以使用這些指示來建置自訂 AMIs,以便與 AWS PCS 搭配使用,也可以使用自己的方法。
AWS PCS 代理程式軟體安裝程式
AWS PCS 代理程式軟體安裝程式會將執行個體設定為在執行個體引導程序期間使用 AWS PCS。您必須使用 AWS提供的安裝程式,在自訂 AMI 上安裝 AWS PCS 代理程式。
如需 AWS PCS 代理程式軟體的詳細資訊,請參閱 AWS PCS 代理程式版本。
Slurm 安裝程式
Slurm 安裝程式會下載、編譯和安裝 Slurm 及其相依性的相關版本。您可以使用 Slurm 安裝程式來建置 AWS PCS AMIs。如果自己的機制與 Slurm 安裝程式提供的軟體組態一致,您也可以使用自己的機制。如需 Slurm 的 AWS PCS 支援詳細資訊,請參閱 AWS PCS 中的 Slurm 版本。
AWS提供的軟體會安裝下列項目:
-
請求主要和維護版本的 Slurm
(目前為 24.11.x 版) - 授權 GPL 2 -
Slurm 建置時將
--sysconfdir
設為/etc/slurm
-
Slurm 是使用 選項
--enable-pam
和 建置的--without-munge
-
Slurm 是使用 選項建置
--sharedstatedir=/run/slurm/
-
Slurm 使用 PMIX 和 JWT 支援建置
-
Slurm 安裝在
/opt/aws/pcs/schedulers/slurm-24.11
-
-
-
OpenPMIX 已安裝為 的子目錄
/opt/aws/pcs/scheduler/
-
-
libjwt
(1.17.0 版) – 授權 MPL-2.0 -
libjwt 已安裝為 的子目錄
/opt/aws/pcs/scheduler/
-
AWS提供的軟體會變更系統組態,如下所示:
-
組建建立的 Slurm
systemd
檔案會以/etc/systemd/system/
檔案名稱 複製到slurmd-24.11.service
。 -
如果不存在,則會使用 UID/GID 建立 Slurm 使用者和群組 (
slurm:slurm
)401
。 -
/etc/aws/pcs/scheduler/slurm-24.11/plugstack.conf.d/
已建立 資料夾,以存放您的使用 SPANK 外掛程式擴展 AWS PCS 上的 Slurm 功能組態。 -
在 Amazon Linux 2 和 Rocky Linux 9 上,安裝會新增 EPEL 儲存庫,以安裝建置 Slurm 或其相依性所需的軟體。
-
在 RHEL9 上,安裝將啟用
fedoraproject
codeready-builder-for-rhel-9-rhui-rpms
和epel-release-latest-9
從 安裝必要的軟體,以建置 Slurm 或其相依性。
支援的作業系統
請參閱 AWS PCS 中支援的作業系統。
注意
AWS 深度學習 AMIs 以 Amazon Linux 2 和 Ubuntu 22.04 為基礎的 (DLAMI) 版本應與 AWS PCS 軟體和 Slurm 安裝程式相容。如需詳細資訊,請參閱《 AWS 深度學習 AMIs 開發人員指南》中的選擇您的 DLAMI。
支援的執行個體類型
AWS PCS 軟體和 Slurm 安裝程式支援任何 x86_64 或 arm64 執行個體類型,而 可執行其中一個支援的作業系統。
支援的 Slurm 版本
請參閱 AWS PCS 中的 Slurm 版本。
使用檢查總和驗證安裝程式
您可以使用 SHA256 檢查總和來驗證安裝程式 tarball (.tar.gz) 檔案。我們建議您執行這項操作來確認軟體發行者的身分識別,並檢查應用程式自發行以來並未遭到變更或損毀。
驗證 tarball
針對 SHA256 檢查總和使用 sha256sum 公用程式,並指定 tarball 檔案名稱。 SHA256 您必須從儲存 tarball 檔案的目錄中執行 命令。
-
SHA256
$
sha256sumtarball_filename.tar.gz
命令應該會傳回以下格式的檢查總和值。
checksum_value
tarball_filename.tar.gz
比較 命令傳回的檢查總和值與下表中提供的檢查總和值。如果檢查總和相符,則可以安全地執行安裝指令碼。
重要
如果檢查總和不相符,請勿執行安裝指令碼。請聯絡 支援
例如,下列命令會產生 Slurm 24.11.6-1 tarball 的 SHA256 檢查總和。
$
sha256sum aws-pcs-slurm-24.11-installer-24.11.6-1.tar.gz
輸出範例:
225de9fc18206f5f65f412effe1fd457614ac97ee9822b3ff804a452b0fae522 aws-pcs-slurm-24.11-installer-24.11.6-1.tar.gz
下表列出安裝程式最新版本的檢查總和。將 us-east-1
取代為您使用 AWS PCS AWS 區域 的 。
Installer (安裝程式) | 下載 URL | SHA256 檢查總和 |
---|---|---|
AWS PCS 代理程式 1.2.1-1 |
|
|
AWS PCS 代理程式 1.2.0-1 |
|
|
AWS PCS 代理程式 1.1.1-1 |
|
|
AWS PCS 代理程式 1.1.0-1 |
|
|
AWS PCS 代理程式 1.0.1-1 |
|
|
AWS PCS 代理程式 1.0.0-1 |
|
|
Installer (安裝程式) | 下載 URL | SHA256 檢查總和 |
---|---|---|
Slurm 24.11.6-1 |
|
|
Slurm 24.11.5-1 |
|
|
Slurm 24.05.8-1 |
|
|
Slurm 24.05.7-1 |
|
|
Slurm 24.05.5-2 |
|
|
Slurm 23.11.10-3 (已棄用) |
|
|
Slurm 23.11.10-2 (已棄用) |
|
|
Slurm 23.11.10-1 (已棄用) |
|
|
Slurm 23.11.9-1 (已棄用) |
|
|