本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
Amazon SageMaker HyperPod 快速入門
此快速入門會引導您建立第一個具有 Slurm 和 Amazon EKS (EKS) 協調的 HyperPod 叢集。選擇最適合您基礎設施的協同運作方式,以開始使用 SageMaker HyperPod。
建立 Slurm 協調的 SageMaker HyperPod 叢集
請依照下列步驟,使用 Slurm 協同運作建立您的第一個 SageMaker HyperPod 叢集。
開啟位於 https://https://console.aws.amazon.com/sagemaker/
的 Amazon SageMaker AI 主控台。 -
在左側導覽窗格中選擇 HyperPod 叢集,然後選擇叢集管理。
-
在 SageMaker HyperPod 叢集頁面上,選擇建立 HyperPod 叢集。
-
在建立 HyperPod 叢集下拉式清單中,選擇 Slurm 協調。
-
在叢集建立頁面上,選擇快速設定。使用此選項,您可以立即開始使用預設設定。SageMaker AI 將在建立叢集的過程中建立新的資源,例如 VPC、子網路、安全群組、Amazon S3 儲存貯體、IAM 角色和 FSx for Lustre。
-
在一般設定中,指定新叢集的名稱。您無法在建立叢集之後變更名稱。
-
在執行個體群組上,選擇新增群組。每個執行個體群組的設定可以不同,而且您可以建立異質叢集,其中包含具有各種執行個體類型的多個執行個體群組。若要部署叢集,您必須至少新增一個執行個體群組。您可以一次新增一個執行個體群組。若要建立多個執行個體群組,請為每個執行個體群組重複此程序。
請依照下列步驟來新增執行個體群組。
-
針對執行個體群組類型,選擇執行個體群組的類型。在此快速入門中,選擇適用於 的控制器 (前端)
my-controller-group
、適用於 的登入my-login-group
,以及適用於 的運算 (工作者)worker-group-1
。 -
針對名稱,指定執行個體群組的名稱。在此快速入門中,請建立三個名為
my-controller-group
、my-login-group
和 的執行個體群組worker-group-1
。 -
針對執行個體容量,選擇隨需容量或訓練計劃以預留您的運算資源。
-
針對執行個體類型,選擇執行個體群組的執行個體。針對此快速入門,
ml.c5.xlarge
請針對my-controller-group
、ml.m5.4xlarge
針對my-login-group
和ml.trn1.32xlarge
針對 選取worker-group-1
。請務必選擇帳戶中具有足夠配額的執行個體類型,或遵循 中的指示請求額外的配額SageMaker HyperPod 配額。
-
針對執行個體數量,指定不超過叢集用量執行個體配額的整數。在此快速入門中,輸入 1 表示所有三個群組。
-
針對目標可用區域,選擇佈建執行個體的可用區域。可用區域應對應至加速運算容量的位置。
-
對於每個執行個體的額外儲存磁碟區 (GB) - 選用,請指定介於 1 到 16384 之間的整數,以 GB (GB) 為單位設定額外的彈性區塊存放區 (EBS) 磁碟區的大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外 EBS 磁碟區的預設掛載路徑為
/opt/sagemaker
。叢集成功建立後,您可以 SSH 進入叢集執行個體 (節點),並透過執行df -h
命令來驗證 EBS 磁碟區是否正確掛載。如《Amazon Elastic Block Store 使用者指南》中的 Amazon EBS 磁碟區一節所述,連接額外的 EBS 磁碟區可提供穩定、非執行個體且獨立保留的儲存體。 -
選擇新增執行個體群組。
-
-
在快速組態預設值上,檢閱預設設定。本節列出叢集建立的所有預設設定,包括在叢集建立程序期間建立的所有新 AWS 資源。
-
選擇提交。
如需詳細資訊,請參閱使用 SageMaker AI 主控台開始使用 SageMaker HyperPod 。
建立 EKS 協調的 SageMaker HyperPod 叢集
請依照下列步驟,使用 Amazon EKS 協同運作建立您的第一個 SageMaker HyperPod 叢集。
在 https://https://console.aws.amazon.com/sagemaker/
開啟 Amazon SageMaker AI 主控台。 -
在左側導覽窗格中選擇 HyperPod 叢集,然後選擇叢集管理。
-
在 SageMaker HyperPod 叢集頁面上,選擇建立 HyperPod 叢集。
-
在建立 HyperPod 叢集下拉式清單中,選擇由 Amazon EKS 協調。
-
在叢集建立頁面上,選擇快速組態。使用此選項,您可以立即開始使用預設設定。SageMaker AI 將在建立叢集的過程中建立新的資源,例如 VPC、子網路、安全群組、Amazon S3 儲存貯體、IAM 角色和 FSx for Lustre。
-
在一般設定中,指定新叢集的名稱。您無法在建立叢集之後變更名稱。
-
在執行個體群組上,選擇新增群組。每個執行個體群組的設定可以不同,而且您可以建立異質叢集,其中包含具有各種執行個體類型的多個執行個體群組。若要部署叢集,您必須至少新增一個執行個體群組。您可以一次新增一個執行個體群組。若要建立多個執行個體群組,請為每個執行個體群組重複此程序。
請依照下列步驟來新增執行個體群組。
-
針對執行個體群組類型,選擇標準或限制執行個體群組 (RIG)。一般而言,您將選擇標準,它提供一般用途的運算環境,而沒有額外的安全限制。受限執行個體群組 (RIG) 是基礎模型自訂的特殊環境,例如 Amazon Nova。如需為 Amazon Nova 模型自訂設定 RIG 的詳細資訊,請參閱 Amazon SageMaker HyperPod 上的 Amazon Nova 自訂 HyperPod。
-
針對名稱,指定執行個體群組的名稱。
-
針對執行個體容量,選擇隨需容量或訓練計畫以預留您的運算資源。
-
針對執行個體類型,選擇執行個體群組的執行個體。請確定您選擇帳戶中具有足夠配額的執行個體類型,或遵循 中的 來請求額外的配額SageMaker HyperPod 配額。
-
對於執行個體數量,請指定不超過叢集用量執行個體配額的整數。在此快速入門中,針對所有三個群組輸入 1。
-
針對目標可用區域,選擇佈建執行個體的可用區域。可用區域應對應至加速運算容量的位置。
-
對於每個執行個體的額外儲存磁碟區 (GB) - 選用,請指定介於 1 到 16384 之間的整數,以 GB (GB) 為單位設定額外的彈性區塊存放區 (EBS) 磁碟區的大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外 EBS 磁碟區的預設掛載路徑為
/opt/sagemaker
。叢集成功建立後,您可以 SSH 進入叢集執行個體 (節點),並透過執行df -h
命令來驗證 EBS 磁碟區是否正確掛載。如《Amazon Elastic Block Store 使用者指南》中的 Amazon EBS 磁碟區一節所述,連接額外的 EBS 磁碟區可提供穩定、執行個體外和獨立保存的儲存體。 -
針對執行個體深層運作狀態檢查,選擇您的選項。深層運作狀態檢查會在建立期間和軟體更新後監控執行個體運作狀態,啟用時透過重新啟動或替換自動復原故障的執行個體。
-
選擇新增執行個體群組。
-
-
在快速組態預設值上,檢閱預設設定。本節列出叢集建立的所有預設設定,包括在叢集建立程序期間建立的所有新 AWS 資源。
-
選擇提交。
如需詳細資訊,請參閱使用 Amazon EKS 協同運作建立 SageMaker HyperPod 叢集。
提交工作負載
請遵循這些研討會教學課程來提交範例工作負載。