在 PCS 中启用 Slurm REST API AWS - AWS PC

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 PCS 中启用 Slurm REST API AWS

启用 Slurm REST API 以访问集群的 HTTP 接口,以进行编程作业管理和监控。您可以在创建集群时启用此功能,也可以更新符合要求的现有集群。

先决条件

在启用 Slurm REST API 之前,请确保您已具备以下条件:

  • 集群版本:Slurm 版本 25.05 或更高版本。

  • 安全组:允许端口 6820 上的 HTTP 流量来自所需来源的规则。

过程

在新集群上启用 Slurm REST API

AWS 管理控制台
  1. 打开 AWS PCS 控制台,网址为https://console.aws.amazon.com/pcs/

  2. 选择创建集群

  3. 在 “集群详细信息” 下,选择 Slurm 版本 25.05 或更高版本。

  4. 根据需要配置其他群集设置。

  5. 计划程序配置部分中,将 REST API 设置为已启用

  6. 将您的集群安全组配置为允许来自所需来源的端口 6820 上的 HTTP 流量。

  7. 完成集群创建过程。

AWS CLI
  1. 在创建集群时添加 Slurm REST 配置。

    aws pcs create-cluster --region region \ --cluster-name my-cluster \ --scheduler type=SLURM, version=25.05 \ --size SMALL \ --networking subnetIds=subnet-ExampleId1,securityGroupIds=sg-ExampleId1 \ --slurm-configuration slurmRest='{mode=STANDARD}'
  2. 将您的集群安全组配置为允许来自所需来源的端口 6820 上的 HTTP 流量。

在现有集群上启用 Slurm REST API

AWS 管理控制台
  1. 打开 AWS PCS 控制台,网址为https://console.aws.amazon.com/pcs/

  2. 从列表中选择您的集群。

  3. 在集群详细信息中确认您的集群使用 Slurm 版本 25.05 或更高版本。

  4. 选择编辑集群

  5. 计划程序配置部分中,将 REST API 设置为已启用

  6. 选择更新集群以应用更改。

  7. 将您的集群安全组配置为允许来自所需来源的端口 6820 上的 HTTP 流量。

AWS CLI
  1. 使用 Slurm REST 配置更新您的集群,如本示例所示。

    aws pcs update-cluster --cluster-identifier my-cluster \ --slurm-configuration 'slurmRest={mode=STANDARD}'
  2. 将您的集群安全组配置为允许来自所需来源的端口 6820 上的 HTTP 流量。

启用后会发生什么

当你启用 REST API 时, AWS PCS 会自动:

  • 生成 JWT 签名密钥并将其存储在 S AWS ecrets Manager 中。

  • 在您的 VPC https://<clusterPrivateIpAddress>:6820 内公开 API 终端节点。

  • 更新您的集群配置以显示 REST API 终端节点的详细信息。

现在,您可以进行身份验证并使用 REST API 进行任务管理和集群操作。