使用 Amazon EKS 協同運作建立 SageMaker HyperPod 叢集 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 Amazon EKS 協同運作建立 SageMaker HyperPod 叢集

下列教學課程示範如何建立新的 SageMaker HyperPod 叢集,並透過 SageMaker AI 主控台 UI 使用 Amazon EKS 協同運作進行設定。

建立叢集

若要導覽至 SageMaker HyperPod 叢集頁面並選擇 Amazon EKS 協同運作,請遵循下列步驟。

  1. 在 https://https://console.aws.amazon.com/sagemaker/ 開啟 Amazon SageMaker AI 主控台。

  2. 在左側導覽窗格中選擇 HyperPod 叢集,然後選擇叢集管理

  3. SageMaker HyperPod 叢集頁面上,選擇建立 HyperPod 叢集

  4. 建立 HyperPod 叢集下拉式清單中,選擇由 Amazon EKS 協調

  5. 在 EKS 叢集建立頁面上,您會看到兩個選項,選擇最符合您需求的選項。

    1. 快速設定 - 若要立即開始使用預設設定,請選擇快速設定。使用此選項,SageMaker AI 將在建立叢集的過程中建立新的資源,例如 VPC、子網路、安全群組、Amazon S3 儲存貯體、IAM 角色和 FSx for Lustre。

    2. 自訂設定 – 若要與現有 AWS 資源整合或具有特定的聯網、安全或儲存需求,請選擇自訂設定。使用此選項,您可以選擇使用現有資源或建立新的資源,也可以自訂最符合您需求的組態。

快速設定

快速設定區段中,依照下列步驟使用 Amazon EKS 協同運作建立 HyperPod 叢集。

指定新叢集的名稱。您無法在建立叢集後變更名稱。

若要新增執行個體群組,請選擇新增群組。每個執行個體群組的設定可以不同,而且您可以建立異質叢集,其中包含具有各種執行個體類型的多個執行個體群組。若要部署叢集,您必須至少新增一個執行個體群組。請依照下列步驟來新增執行個體群組。

  1. 針對執行個體群組類型,選擇標準限制執行個體群組 (RIG)。一般而言,您將選擇標準,它提供一般用途的運算環境,而沒有額外的安全限制。受限執行個體群組 (RIG) 是基礎模型自訂的特殊環境,例如 Amazon Nova。如需為 Amazon Nova 模型自訂設定 RIG 的詳細資訊,請參閱 Amazon SageMaker HyperPod 上的 Amazon Nova 自訂 HyperPod

  2. 針對名稱,指定執行個體群組的名稱。

  3. 針對執行個體容量,選擇隨需容量或訓練計劃以預留您的運算資源。

  4. 針對執行個體類型,選擇執行個體群組的執行個體。請務必選擇帳戶中具有足夠配額的執行個體類型,或遵循 中的 來請求額外的配額SageMaker HyperPod 配額

  5. 對於執行個體數量,請指定不超過叢集用量執行個體配額的整數。在本教學課程中,輸入 1 表示所有三個群組。

  6. 針對目標可用區域,選擇佈建執行個體的可用區域。可用區域應對應至加速運算容量的位置。

  7. 對於每個執行個體的額外儲存磁碟區 (GB) - 選用,請指定介於 1 到 16384 之間的整數,以 GB (GB) 為單位設定額外的彈性區塊存放區 (EBS) 磁碟區的大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外 EBS 磁碟區的預設掛載路徑為 /opt/sagemaker。叢集建立成功後,您可以 SSH 進入叢集執行個體 (節點),並透過執行 df -h命令來驗證 EBS 磁碟區是否正確掛載。如《Amazon Elastic Block Store 使用者指南》中的 Amazon EBS 磁碟區一節所述,連接額外的 EBS 磁碟區可提供穩定、執行個體外和獨立保存的儲存體。

  8. 針對執行個體深層運作狀態檢查,選擇您的選項。深度運作狀態檢查會在建立期間和軟體更新後監控執行個體運作狀態,啟用時透過重新啟動或替換來自動復原故障的執行個體。

  9. 選擇新增執行個體群組

本節列出叢集建立的所有預設設定,包括在叢集建立程序期間建立的所有新 AWS 資源。檢閱預設設定。

自訂設定

自訂設定區段中,依照下列步驟使用 Amazon EKS 協同運作建立您的第一個 HyperPod 叢集。

指定新叢集的名稱。您無法在建立叢集後變更名稱。

針對執行個體復原,選擇自動 - 建議

設定叢集內和叢集in-and-out的網路設定。對於使用 Amazon EKS 協調 SageMaker HyperPod 叢集,VPC 會自動設定為使用您選取的 EKS 叢集設定的 VPC。

  1. 對於 VPC,如果您已有提供 SageMaker AI 存取 VPC 的 VPC,請選擇自己的 VPC。若要建立新的 VPC,請遵循《Amazon Virtual Private Cloud 使用者指南》中建立 VPC 的指示。您可以將其保留為,以使用預設 SageMaker AI VPC。

  2. 針對 VPC IPv4 CIDR 區塊,輸入 VPC 的起始 IP。

  3. 針對可用區域,選擇 HyperPod 將為叢集建立子網路的可用區域 (AZ)。選擇符合您加速運算容量位置的AZs。

  4. 針對安全群組 (Amazon EKS),選擇連接到 Amazon EKS 叢集或與 Amazon EKS 叢集相關聯的安全群組允許傳入流量的安全群組。若要建立新的安全群組,請前往 Amazon VPC 主控台。

請依照下列步驟建立或選取 Amazon EKS 叢集,以用作協調器。

  1. 針對 EKS 叢集,選擇建立新的 Amazon EKS 叢集或使用現有的叢集。

    如果您需要建立新的 EKS 叢集,您可以從 EKS 叢集區段建立它,而不必開啟 Amazon EKS 主控台。

    注意

    您為 HyperPod 選擇的 VPC 子網路必須是私有的。

    提交新的 EKS 叢集建立請求後,請等待 EKS 叢集變成 Active

  2. 對於 Kubernetes 版本,請從下拉式選單中選擇版本。如需 Kubernetes 版本的詳細資訊,請參閱《Amazon EKS 使用者指南》中的了解 EKS 上的 Kubernetes 版本生命週期

  3. 對於運算子,選擇使用預設 Helm Chart 和附加元件,或不安裝運算子。選項預設為使用預設 Helm Chart 和附加元件,用於在 EKS 叢集上安裝運算子。如需預設 Helm Chart 和附加元件的詳細資訊,請參閱 GitHub 儲存庫helm_chart中的 。如需詳細資訊,請參閱使用 Helm 在 Amazon EKS 叢集上安裝套件

  4. 針對已啟用的運算子,檢視已啟用的運算子清單。若要編輯運算子,請取消勾選頂端的方塊,然後選擇要為 EKS 叢集啟用的運算子。

    注意

    若要將 HyperPod 與 EKS 搭配使用,您必須在 EKS 叢集上安裝啟用運算子的 Helm Chart 和附加元件。這些元件會將 EKS 設定為 HyperPod 的控制平面,並提供工作負載管理和協同運作所需的設定。

若要新增執行個體群組,請選擇新增群組。每個執行個體群組的設定可以不同,而且您可以建立異質叢集,其中包含具有各種執行個體類型的多個執行個體群組。若要部署叢集,您必須至少新增一個執行個體群組。請依照下列步驟來新增執行個體群組。

  1. 針對執行個體群組類型,選擇標準限制執行個體群組 (RIG)。一般而言,您將選擇標準,以提供一般用途的運算環境,而沒有額外的安全限制。限制執行個體群組 (RIG) 是基礎模型自訂的特殊環境,例如 Amazon Nova。如需為 Amazon Nova 模型自訂設定 RIG 的詳細資訊,請參閱 Amazon SageMaker HyperPod 上的 Amazon Nova 自訂 HyperPod

  2. 針對名稱,指定執行個體群組的名稱。

  3. 針對執行個體容量,選擇隨需容量或訓練計劃以預留您的運算資源。

  4. 針對執行個體類型,選擇執行個體群組的執行個體。請務必選擇帳戶中具有足夠配額的執行個體類型,或遵循 中的 來請求額外的配額SageMaker HyperPod 配額

  5. 針對執行個體數量,指定不超過叢集用量執行個體配額的整數。在本教學課程中,輸入 1 表示所有三個群組。

  6. 針對目標可用區域,選擇佈建執行個體的可用區域。可用區域應對應至加速運算容量的位置。

  7. 對於每個執行個體的額外儲存磁碟區 (GB) - 選用,請指定介於 1 到 16384 之間的整數,以 GB (GB) 為單位設定額外的彈性區塊存放區 (EBS) 磁碟區的大小。EBS 磁碟區會連接至執行個體群組的每個執行個體。額外 EBS 磁碟區的預設掛載路徑為 /opt/sagemaker。成功建立叢集後,您可以將 SSH 插入叢集執行個體 (節點),並透過執行 df -h命令來驗證 EBS 磁碟區是否正確掛載。如《Amazon Elastic Block Store 使用者指南》中的 Amazon EBS 磁碟區一節所述,連接額外的 EBS 磁碟區可提供穩定、非執行個體且獨立保存的儲存體。

  8. 針對執行個體深層運作狀態檢查,選擇您的選項。深度運作狀態檢查會在建立期間和軟體更新後監控執行個體運作狀態,啟用時透過重新啟動或替換來自動復原故障的執行個體。如需進一步了解,請參閱 深層運作狀態檢查

  9. 選擇新增執行個體群組

您可以選擇使用預設生命週期指令碼或自訂生命週期指令碼,這些指令碼將存放在您的 Amazon S3 儲存貯體中。您可以在 Awesome Distributed Training GitHub 儲存庫中檢視預設生命週期指令碼。若要進一步了解生命週期指令碼,請參閱 使用生命週期指令碼自訂 SageMaker HyperPod 叢集

  1. 針對生命週期指令碼,選擇使用預設或自訂生命週期指令碼。

  2. 針對生命週期指令碼的 S3 儲存貯體,選擇建立新的儲存貯體或使用現有的儲存貯體來存放生命週期指令碼。

選擇或建立允許 HyperPod 代表您執行和存取必要 AWS 資源的 IAM 角色。如需詳細資訊,請參閱SageMaker HyperPod 的 IAM 角色

設定要在 HyperPod 叢集上佈建的 FSx for Lustre 檔案系統。

  1. 針對檔案系統,選擇現有的 FSx for Lustre 檔案系統、建立新的 FSx for Lustre 檔案系統,或不佈建 FSx for Lustre 檔案系統。

  2. 針對每單位儲存的輸送量,選擇每個佈建儲存 TiB 可用的輸送量。

  3. 針對儲存容量,以 TB 為單位輸入容量值。

  4. 針對資料壓縮類型,選擇 LZ4 以啟用資料壓縮。

  5. 對於 Lustre 版本,檢視新檔案系統建議的值。

對於標籤 - 選用,將索引鍵和值對新增至新叢集,並以 AWS 資源的形式管理叢集。若要進一步了解,請參閱標記您的 AWS 資源

部署資源

使用快速設定自訂設定完成叢集組態後,請選擇下列選項以開始資源佈建和建立叢集。

  • Submit-SageMaker AI 將開始佈建預設組態資源並建立叢集。

  • 下載 CloudFormation 範本參數 - 您將下載組態參數 JSON 檔案並執行 AWS CLI 命令來部署 CloudFormation 堆疊,以佈建組態資源並建立叢集。您可以視需要編輯下載的參數 JSON 檔案。如果您選擇此選項,請參閱 中的更多說明使用 AWS CloudFormation 範本建立 SageMaker HyperPod 叢集