使用 AWS CloudFormation 範本建立 SageMaker HyperPod 叢集 - Amazon SageMaker AI

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用 AWS CloudFormation 範本建立 SageMaker HyperPod 叢集

您可以使用 HyperPod 的 CloudFormation 範本來建立 SageMaker HyperPod 叢集。您必須安裝 AWS CLI 才能繼續。

在主控台中設定資源,並使用 CloudFormation 部署

您可以使用 設定資源 AWS Management Console ,並使用 CloudFormation 範本部署。

請遵循下列步驟。

  1. 請遵循 中的指示使用 SageMaker AI 主控台開始使用 SageMaker HyperPod 來設定建立叢集所需的 AWS 資源。

  2. 建立叢集頁面的結尾,選擇下載 CloudFormation 範本參數。這會開啟 使用組態檔案,使用頁面右側的視窗來建立叢集 AWS CLI

  3. 使用組態檔案來使用 視窗建立叢集上 AWS CLI,選擇下載組態參數檔案。檔案將下載到您的機器。您可以根據您的需求編輯組態 JSON 檔案,或者如果不需要變更,則保留原樣。

  4. 執行 create-stack AWS CLI 命令來部署 CloudFormation 堆疊,以佈建設定的資源並建立 HyperPod 叢集。

    aws cloudformation create-stack --stack-name my-stack --template-url https://aws-sagemaker-hyperpod-cluster-setup.amazonaws.com/templates-slurm/main-stack-slurm-based-template.yaml --parameters file://params.json --capabilities CAPABILITY_IAM CAPABILITY_NAMED_IAM
  5. 若要檢視資源佈建的狀態,請導覽至 CloudFormation 主控台。

    叢集建立完成後,請在 SageMaker HyperPod 主控台的主窗格中檢視叢集下的新叢集。您可以檢查狀態欄下顯示的狀態

  6. 在叢集的狀態變為 之後InService,您可以開始登入叢集節點。若要存取叢集節點並開始執行 ML 工作負載,請參閱 SageMaker HyperPod 叢集上的任務

使用 CloudFormation 設定資源和部署

您可以使用 SageMaker HyperPod 的 CloudFormation 範本來設定資源和部署。

請遵循下列步驟。

  1. 從 sagemaker-hyperpod-cluster-setup GitHub 儲存庫下載 SageMaker HyperPod 的 CloudFormation 範本。 sagemaker-hyperpod-cluster-setup GitHub

  2. 執行 create-stack AWS CLI 命令來部署 CloudFormation 堆疊,以佈建設定的資源並建立 HyperPod 叢集。

    aws cloudformation create-stack --stack-name my-stack --template-url URL_of_the_file_that_contains_the_template_body --parameters file://params.json --capabilities CAPABILITY_IAM CAPABILITY_NAMED_IAM
  3. 若要檢視資源佈建的狀態,請導覽至 CloudFormation 主控台。

    叢集建立完成後,請在 SageMaker HyperPod 主控台的主窗格中檢視叢集下的新叢集。您可以檢查狀態欄下顯示的狀態

  4. 在叢集的狀態變為 之後InService,您可以開始登入叢集節點。若要存取叢集節點並開始執行 ML 工作負載,請參閱 SageMaker HyperPod 叢集上的任務