本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
Amazon SageMaker HyperPod 快速入门
本快速入门将指导你使用 Slurm 和 Amazon EKS (EKS) 编排创建第一个 HyperPod 集群。选择最适合您的基础架构需求的编排以开始使用 SageMaker HyperPod。
创建 SLURM 编排集群 SageMaker HyperPod
按照以下步骤使用 Slurm 编排创建您的第一个 SageMaker HyperPod 集群。
打开 Amazon A SageMaker I 控制台,网址为https://console.aws.amazon.com/sagemaker/
。 -
在左侧导航窗格中选择 “集HyperPod 群”,然后选择 “集群管理”。
-
在SageMaker HyperPod 集群页面上,选择创建 HyperPod 集群。
-
在创建 HyperPod 集群下拉列表中,选择由 Slurm 编排。
-
在集群创建页面上,选择快速设置。使用此选项,您可以立即开始使用默认设置。 SageMaker 在创建集群的过程中,AI 将创建新资源,例如 VPC、子网、安全组、Amazon S3 存储桶、IAM 角色和 FSx for Lustre。
-
在常规设置中,为新集群指定名称。创建集群后,您无法更改名称。
-
在实例组上,选择添加组。每个实例组都可以进行不同的配置,您可以创建一个异构集群,该集群由具有不同实例类型的多个实例组组成。要部署集群,必须至少添加一个实例组。您一次可以添加一个实例组。要创建多个实例组,请对每个实例组重复该过程。
按照以下步骤添加实例组。
-
对于实例组类型,请为您的实例组选择一种类型。在本快速入门中,选择 Cont roller(head)
my-controller-group
,为 “登录”my-login-group
,选择 “计算(worker)”。worker-group-1
-
在名称中,为实例组指定一个名称。在本快速入门中,创建三个名为
my-controller-group
my-login-group
、和worker-group-1
的实例组。 -
对于实例容量,请选择按需容量或训练计划来预留计算资源。
-
对于实例类型,选择实例组的实例。在本快速入门中,请选择 f
ml.c5.xlarge
ormy-controller-group
、fml.m5.4xlarge
or 和my-login-group
fml.trn1.32xlarge
or。worker-group-1
请确保选择账户中具有足够配额的实例类型,或者按照中的说明申请额外的配额SageMaker HyperPod 配额。
-
对于实例数量,请指定一个不超过集群使用量实例配额的整数。在本快速入门中,请为所有三个组输入 1。
-
对于目标可用区,选择将在其中配置实例的可用区。可用区应与您的加速计算容量所在的位置相对应。
-
对于每个实例的额外存储量 (GB)-可选,请指定一个介于 1 和 16384 之间的整数,以设置额外的 Elastic Block Store (EBS) 卷的大小(以千兆字节 (GB) 为单位)。EBS 卷附加到实例组的每个实例。附加 EBS 卷的默认挂载路径为
/opt/sagemaker
。成功创建集群后,您可以 SSH 登录集群实例(节点),并通过运行df -h
命令验证 EBS 卷是否已正确加载。如《Amazon Elastic Block Store 用户指南》中的 Amazon EBS 卷部分所述,附加 EBS 卷可提供稳定、非实例和独立持久化的存储。 -
选择添加实例组。
-
-
在 “快速配置默认值” 中,查看默认设置。本部分列出了创建集群的所有默认设置,包括将在集群创建过程中创建的所有新 AWS 资源。
-
选择提交。
有关更多信息,请参阅 开始 SageMaker HyperPod 使用 SageMaker AI 控制台。
创建 EKS 编排集群 SageMaker HyperPod
按照以下步骤使用 Amazon EKS 编排创建您的第一个 SageMaker HyperPod 集群。
打开 Amazon A SageMaker I 控制台,网址为https://console.aws.amazon.com/sagemaker/
。 -
在左侧导航窗格中选择 “集HyperPod 群”,然后选择 “集群管理”。
-
在SageMaker HyperPod 集群页面上,选择创建 HyperPod 集群。
-
在创建 HyperPod 集群下拉列表中,选择由 Amazon EKS 编排。
-
在集群创建页面上,选择快速配置。使用此选项,您可以立即开始使用默认设置。 SageMaker 在创建集群的过程中,AI 将创建新资源,例如 VPC、子网、安全组、Amazon S3 存储桶、IAM 角色和 FSx for Lustre。
-
在常规设置中,为新集群指定名称。创建集群后,您无法更改名称。
-
在实例组上,选择添加组。每个实例组都可以进行不同的配置,您可以创建一个异构集群,该集群由具有不同实例类型的多个实例组组成。要部署集群,必须至少添加一个实例组。您一次可以添加一个实例组。要创建多个实例组,请对每个实例组重复该过程。
按照以下步骤添加实例组。
-
对于实例组类型,选择标准或受限实例组 (RIG)。通常,您将选择标准,它提供了一个没有额外安全限制的通用计算环境。受限实例组 (RIG) 是用于基础模型定制(例如 Amazon Nova)的专用环境。有关为 Amazon Nova 模型自定义设置装备的更多信息,请参阅亚马逊上的 Amazon Nova 定制 SageMaker HyperPod。
-
在名称中,为实例组指定一个名称。
-
对于实例容量,请选择按需容量或训练计划来预留计算资源。
-
对于实例类型,选择实例组的实例。确保选择的实例类型在账户中有足够的配额,或通过 SageMaker HyperPod 配额 申请额外配额。
-
对于实例数量,请指定一个不超过集群使用量实例配额的整数。在本快速入门中,请为所有三个组输入 1。
-
对于目标可用区,请选择将在其中配置实例的可用区。可用区应与您的加速计算容量所在的位置相对应。
-
对于每个实例的额外存储量 (GB)-可选,请指定一个介于 1 和 16384 之间的整数,以设置额外的 Elastic Block Store (EBS) 卷的大小(以千兆字节 (GB) 为单位)。EBS 卷附加到实例组的每个实例。附加 EBS 卷的默认挂载路径为
/opt/sagemaker
。成功创建集群后,您可以 SSH 登录集群实例(节点),并通过运行df -h
命令验证 EBS 卷是否已正确加载。如《Amazon Elastic Block Store 用户指南》中的 Amazon EBS 卷部分所述,附加 EBS 卷可提供稳定、非实例和独立持久化的存储。 -
例如,对于深度运行状况检查,请选择您的选项。深度运行状况检查可在创建期间和软件更新后监控实例的运行状况,启用后通过重启或替换自动恢复故障实例。
-
选择添加实例组。
-
-
在 “快速配置默认值” 中,查看默认设置。本部分列出了创建集群的所有默认设置,包括将在集群创建过程中创建的所有新 AWS 资源。
-
选择提交。
有关更多信息,请参阅 使用 Amazon EKS 编排创建 SageMaker HyperPod 集群。
提交工作负载
按照这些研讨会教程提交示例工作负载。