使用 AWS CloudFormation 模板创建 SageMaker HyperPod 集群 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 AWS CloudFormation 模板创建 SageMaker HyperPod 集群

您可以使用的 CloudFormation 模板创建 SageMaker HyperPod 集群 HyperPod。必须安装 AWS CLI 才能继续。

在控制台中配置资源并使用进行部署 CloudFormation

您可以使用配置资源 AWS Management Console 并使用 CloudFormation模板进行部署。

执行以下步骤。

  1. 开始 SageMaker HyperPod 使用 SageMaker AI 控制台按照中的说明配置创建集群所需的 AWS 资源。

  2. 创建集群页面的末尾,选择下载 CloudFormation 模板参数。这将使用页面右侧的 AWS CLI窗口打开使用配置文件创建集群

  3. 使用配置文件使用该 AWS CLI窗口创建集群上,选择下载配置参数文件。该文件将下载到您的计算机上。您可以根据需要编辑配置 JSON 文件,或者如果不需要更改,则保持原样。

  4. 运行 create-stack AWS CLI 命令部署 CloudFormation 堆栈,该堆栈将预配置的资源并创建集群。 HyperPod

    aws cloudformation create-stack --stack-name my-stack --template-url https://aws-sagemaker-hyperpod-cluster-setup.amazonaws.com/templates-slurm/main-stack-slurm-based-template.yaml --parameters file://params.json --capabilities CAPABILITY_IAM CAPABILITY_NAMED_IAM
  5. 要查看资源配置的状态,请导航到 CloudFormation控制台。

    集群创建完成后,在 SageMaker HyperPod控制台主窗格的 “集群” 下查看新集群。您可以查看状态栏下显示的状态。

  6. 集群状态变为 InService 后,即可开始登录集群节点。要访问集群节点并开始运行 ML 工作负载,请参阅 SageMaker HyperPod 集群上的作业

使用配置资源和部署 CloudFormation

您可以使用的 CloudFormation 模板配置资源和部署 SageMaker HyperPod。

执行以下步骤。

  1. SageMaker HyperPod 从sagemaker-hyperpod-cluster-setup GitHub 存储库下载的 CloudFormation 模板。

  2. 运行 create-stack AWS CLI 命令部署 CloudFormation 堆栈,该堆栈将预配置的资源并创建集群。 HyperPod

    aws cloudformation create-stack --stack-name my-stack --template-url URL_of_the_file_that_contains_the_template_body --parameters file://params.json --capabilities CAPABILITY_IAM CAPABILITY_NAMED_IAM
  3. 要查看资源配置的状态,请导航到 CloudFormation控制台。

    集群创建完成后,在 SageMaker HyperPod控制台主窗格的 “集群” 下查看新集群。您可以查看状态栏下显示的状态。

  4. 集群状态变为 InService 后,即可开始登录集群节点。要访问集群节点并开始运行 ML 工作负载,请参阅 SageMaker HyperPod 集群上的作业