本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用 AWS CloudFormation 模板创建 SageMaker HyperPod 集群
您可以使用的 CloudFormation 模板创建 SageMaker HyperPod 集群 HyperPod。必须安装 AWS CLI 才能继续。
在控制台中配置资源并使用进行部署 CloudFormation
您可以使用配置资源 AWS Management Console 并使用 CloudFormation模板进行部署。
执行以下步骤。
-
开始 SageMaker HyperPod 使用 SageMaker AI 控制台按照中的说明配置创建集群所需的 AWS 资源。
-
在创建集群页面的末尾,选择下载 CloudFormation 模板参数。这将使用页面右侧的 AWS CLI窗口打开使用配置文件创建集群。
-
在使用配置文件使用该 AWS CLI窗口创建集群上,选择下载配置参数文件。该文件将下载到您的计算机上。您可以根据需要编辑配置 JSON 文件,或者如果不需要更改,则保持原样。
-
运行 create-stack AWS CLI 命令部署 CloudFormation 堆栈,该堆栈将预配置的资源并创建集群。 HyperPod
aws cloudformation create-stack --stack-name
my-stack
--template-urlhttps://aws-sagemaker-hyperpod-cluster-setup.amazonaws.com/templates-slurm/main-stack-slurm-based-template.yaml
--parameters file://params.json --capabilities CAPABILITY_IAM CAPABILITY_NAMED_IAM -
要查看资源配置的状态,请导航到 CloudFormation控制台。
集群创建完成后,在 SageMaker HyperPod控制台主窗格的 “集群” 下查看新集群。您可以查看状态栏下显示的状态。
-
集群状态变为
InService
后,即可开始登录集群节点。要访问集群节点并开始运行 ML 工作负载,请参阅 SageMaker HyperPod 集群上的作业。
使用配置资源和部署 CloudFormation
您可以使用的 CloudFormation 模板配置资源和部署 SageMaker HyperPod。
执行以下步骤。
-
SageMaker HyperPod 从sagemaker-hyperpod-cluster-setup
GitHub 存储库下载的 CloudFormation 模板。 -
运行 create-stack AWS CLI 命令部署 CloudFormation 堆栈,该堆栈将预配置的资源并创建集群。 HyperPod
aws cloudformation create-stack --stack-name
my-stack
--template-urlURL_of_the_file_that_contains_the_template_body
--parameters file://params.json --capabilities CAPABILITY_IAM CAPABILITY_NAMED_IAM -
要查看资源配置的状态,请导航到 CloudFormation控制台。
集群创建完成后,在 SageMaker HyperPod控制台主窗格的 “集群” 下查看新集群。您可以查看状态栏下显示的状态。
-
集群状态变为
InService
后,即可开始登录集群节点。要访问集群节点并开始运行 ML 工作负载,请参阅 SageMaker HyperPod 集群上的作业。