使用控制 SageMaker HyperPod 台管理 Slurm 集群 SageMaker - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用控制 SageMaker HyperPod 台管理 Slurm 集群 SageMaker

以下主题提供了有关如何 SageMaker HyperPod 通过控制台 UI 进行管理的指导。

创建 SageMaker HyperPod 集群

开始 SageMaker HyperPod 使用 SageMaker AI 控制台要通过 SageMaker HyperPod 控制台 UI 创建新 SageMaker HyperPod 集群,请参阅中的说明。

浏览您的 SageMaker HyperPod 集群

在控制台主页面 SageMaker HyperPod 控制台主窗格的集下,所有已创建的集群都应显示在 “集群” 部分下,该部分提供了集群及其 ARNs状态和创建时间的摘要视图。 SageMaker HyperPod

查看每个 SageMaker HyperPod 集群的详细信息

在管理控制台主页的集群下,集群名称已作为链接激活。选择集群名称链接,查看每个集群的详细信息。

编辑集 SageMaker HyperPod 群

  1. 在 SageMaker HyperPod控制台主窗格的集下,选择要更新的集群。

  2. 选择您的集群,然后选择编辑

  3. 编辑<your-cluster>页面中,您可以编辑现有实例组的配置、添加更多实例组、删除实例组以及更改集群的标签。更改后,选择提交

    1. 配置实例组部分,您可以通过选择创建实例组来添加更多实例组

    2. 配置实例组部分,您可以选择编辑以更改其配置,或者选择删除以永久删除实例组。

      重要

      删除实例组时,请考虑以下几点:

      • 您的 SageMaker HyperPod 集群必须始终维护至少一个实例组。

      • 确保所有关键数据在删除之前都已备份

      • 移除过程无法撤消。

      注意

      删除实例组将终止与该组关联的所有计算资源。

    3. 标签部分,您可以更新集群的标记。

删除集 SageMaker HyperPod 群

  1. 在 SageMaker HyperPod控制台主窗格的集下,选择要删除的集群。

  2. 选择您的集群,然后选择删除

  3. 在弹出的集群删除窗口中,仔细查看集群信息,确认选择了正确的集群进行删除。

  4. 查看集群信息后,选择是,删除集群

  5. 在确认删除的文本字段中键入 delete

  6. 在弹出窗口的右下角选择删除,完成集群删除请求的发送。