使用 SageMaker HyperPod 控制台 UI - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用 SageMaker HyperPod 控制台 UI

以下主题提供了有关如何 SageMaker HyperPod 通过控制台 UI 进行操作的指导。

创建集 SageMaker HyperPod 群

请参阅以下有关通过 SageMaker HyperPod 控制台 UI 创建新 SageMaker HyperPod 集群的说明。

  1. 打开亚马逊 SageMaker 控制台,网址为 https://console.aws.amazon.com/sagemaker/

  2. 在左侧导航窗格中选择 “HyperPod 集群”。

  3. 在 SageMaker HyperPod 登录页面中,选择创建集群

  4. 步骤 1:集群设置中,设置集群的基本信息。

    1. 集群名称中,为新集群指定一个名称。

    2. 对于标签,向新集群添加密钥和值对,并将集群作为 AWS 资源进行管理。要了解更多信息,请参阅为AWS 资源添加标签

  5. 步骤 2:实例组中,选择创建实例组。可以对每个实例组进行不同的配置,您可以创建一个由具有不同实例类型的多个实例组组组成的异构集群。在创建实例组配置弹出窗口中,填写实例组配置信息。

    1. 实例组名称中,指定实例组的名称。

    2. 选择实例类型中,选择实例组的实例。

    3. 在 “数量” 中,指定一个不超过集群使用量实例配额的整数。

    4. 对于生命周期脚本文件的 Amazon S3 路径,请输入存储生命周期脚本的 S3 路径。

    5. 创建时生命周期脚本的目录路径中,在生命周期脚本文件的 S3 路径下输入生命周期脚本的文件名。

    6. 对于 IAM 角色,请按照本节选择您为 SageMaker HyperPod 资源创建的 IAM 角色为用户和资源设置 IAM SageMaker HyperPod 用户和角色

    7. 在 “高级配置” 下,您可以设置以下可选配置。

      1. (可选)对于每核线程数,请指定1禁用多线程和2启用多线程。要了解哪种实例类型支持多线程,请参阅 Amazon EC2 用户指南中每种实例类型的 CPU 核心和每 CPU 核心线程的参考表。

      2. (可选)对于其他实例存储配置,请指定一个介于 1 和 16384 之间的整数,以设置以千兆字节 (GB) 为单位的额外弹性块存储 (EBS) 卷的大小。EBS 卷连接到实例组的每个实例。其他 EBS 卷的默认装载路径为/opt/sagemaker。成功创建集群后,您可以通过 SSH 连接到集群实例(节点),并通过运行命令来验证 EBS 卷是否已正确装载。df -h如亚马逊弹性块存储用户指南中的 A mazon EBS 卷部分所述,附加额外的 EBS 卷可提供稳定、非实例且独立的持久存储。

  6. 步骤 3:高级配置中,配置集群内和 in-and-out 集群的可选网络设置。如果您已经有可以 SageMaker 访问您自己的 VPC 下资源的 VPC,请选择您自己的 VPC。如果要创建新的 VPC,请参阅 Amazon Virtual Private Cloud 用户指南中的创建默认 VPC 或创建 VPC。如果您未做出任何选择,它会选择您账户的默认 VPC。

    注意

    如果您想使用自己的 VPC,则应为 SageMaker HyperPod 集群的 IAM 角色添加额外权限。要了解更多信息,请参阅(可选) SageMaker HyperPod 使用您的亚马逊 VPC 进行设置

  7. 步骤 4:查看并创建中,查看您在步骤 1 到步骤 3 中设置的配置,并完成集群创建请求的提交。

  8. 集群状态变为后InService,您可以开始登录群集节点。要访问集群节点并开始运行 ML 工作负载,请参阅在 SageMaker HyperPod 集群上运行作业

浏览您的 SageMaker HyperPod 集群

在 SageMaker HyperPod 控制台主页的集群下,所有已创建的集群都应显示在 “集群” 部分下,该部分提供了集群、其 ARN、状态和创建时间的摘要视图。

查看每个 SageMaker HyperPod 集群的详细信息

在控制台主页的集群下,集群名称被激活为链接。选择集群名称链接以查看每个集群的详细信息。

编辑集 SageMaker HyperPod 群

  1. 集群下,选择要更新的集群。

  2. 选择 “操作” 按钮,然后选择 “编辑群集”

  3. 编辑<your-cluster>页面中,您可以编辑现有实例组的配置、添加更多实例组以及更改集群的标签。进行更改后,选择提交。请注意,目前您无法减少或删除现有实例组。

    1. 配置实例组部分,您可以通过选择创建集群组来添加更多实例组

    2. 配置实例组部分,您可以选择其中一个实例组,然后选择编辑以更改其配置。

    3. 标签部分,您可以更新集群的标签。

删除集 SageMaker HyperPod 群

  1. 集群下,选择要删除的集群。

  2. 选择操作,然后选择删除集群

  3. 在删除集群的弹出窗口中,仔细查看集群信息,确认您选择了正确的集群进行删除。

  4. 查看集群信息后,选择是,删除集群

  5. 在要确认删除的文本字段中,键入delete

  6. 选择弹出窗口右下角的 “删除”,完成集群删除请求的发送。