选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

SageMaker HyperPod 多头节点支持

聚焦模式
SageMaker HyperPod 多头节点支持 - 亚马逊 SageMaker AI

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

你可以在单个 SageMaker HyperPod Slurm 集群中创建多个控制器(头)节点,其中一个用作主控制器节点,另一个用作备用控制器节点。主控制器节点负责控制计算(工作节点)和处理 Slurm 操作。备用控制器节点持续监视主控制器节点。如果主控制器节点出现故障或无响应,则其中一个备用控制器节点将自动接管成为新的主控制器节点。

在 SageMaker HyperPod Slurm 集群中配置多个控制器节点有几个主要好处。它通过提供控制器头节点来消除单控制器节点故障的风险,支持自动故障转移到备份控制器节点,恢复速度更快,并允许您独立管理自己的记账数据库和 Slurm 配置。

重要概念

以下内容详细介绍了与 Slurm 集群的 SageMaker HyperPod 多控制器(头)节点支持相关的概念。

控制器节点

控制器节点是集群中的一个 Amazon EC2 实例,它运行用于管理和协调集群操作的关键 Slurm 服务。具体而言,它托管 Slurm 控制器守护程序 (slurmctld) 和 Slurm 数据库守护程序 (slurmdbd)控制器节点也称为头节点。

主控制器节点

主控制器节点是 Slurm 集群中处于活动状态且当前处于控制状态的控制器节点。Slurm 将其标识为负责管理集群的主控制器节点。主控制器节点接收并执行来自用户的命令,以控制和分配计算节点上用于运行作业的资源。

Backup 控制器节点

备份控制器节点是 Slurm 集群中的非活动和备用控制器节点。Slurm 将其标识为当前未管理集群的备份控制器节点。备份控制器节点在待机模式下运行 Slurm 控制器守护程序 (slurmctl d)。在备份控制器节点上执行的任何控制器命令都将传播到主控制器节点以供执行。它的主要目的是持续监控主控制器节点,并在主控制器节点出现故障或无响应时接管其职责。

计算节点

计算节点是托管 Slurm 工作程序守护程序 (slurmd) 的集群中的一个 Amazon EC2 实例。计算节点的主要功能是执行在主控制器节点上运行的 Slurm 控制器守护程序 (slurmctld) 分配的作业。调度作业时,计算节点会收到来自 Slurm 控制器守护程序 (slurmctld) 的指令,以便在节点本身内为该作业执行必要的任务和计算。计算也称为工作节点。

工作方式

下图说明了不同的 AWS 服务如何协同工作以支持 SageMaker HyperPod Slurm 集群的多控制器(头)节点架构。

SageMaker HyperPod 多头节点架构图

协同工作以支持 SageMaker HyperPod 多控制器(头)节点架构的 AWS 服务包括以下内容。

AWS 协同工作以支持 SageMaker HyperPod 多控制器节点架构的服务
服务 描述
IAM (AWS Identity and Access Management) 定义两个 IAM 角色来控制访问权限:一个角色用于计算节点实例组,另一个角色用于控制器节点实例组。
Amazon RDS for MariaDB 存储 Slurm 的会计数据,它保存作业记录和计量数据。
AWS Secrets Manager 存储并管理 Amazon FSx 可以访问的 Lustre 证书。
亚马逊 f FSx or Lustre 存储 Slurm 配置和运行时状态。
Amazon VPC 提供隔离的网络环境,用于部署 HyperPod 集群及其资源。
Amazon SNS 当出现与主控制器(头部)节点相关的状态变化(Slurm 控制器为ONOFF)时,向管理员发送通知。

集 HyperPod 群本身由控制器节点(主节点和备用节点)和计算节点组成。控制器节点运行 Slurm 控制器 (SlurmCtld) 和数据库 (SlurmDBd) 组件,它们管理和监控计算节点上的工作负载。

控制器节点访问存储在 Ama FSx zon for Lustre 文件系统中的 Slurm 配置和运行时状态。Slurm 的会计数据存储在亚马逊 RDS for MariaDB 数据库中。 AWS Secrets Manager 为控制器节点提供对数据库凭据的安全访问。

如果 Slurm 控制器节点的状态发生变化(Slurm 控制器为ONOFF),Amazon SNS 会向管理员发送通知,以便采取进一步行动。

这种多控制器节点架构消除了单个控制器(头)节点的单点故障,实现了快速和自动的故障转移恢复,并允许您控制 Slurm 记账数据库和配置。

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。