在中创建 SageMaker 训练作业队列 AWS Batch - AWS Batch

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在中创建 SageMaker 训练作业队列 AWS Batch

SageMaker 训练作业队列直接与 SageMaker AI 服务集成,无需管理底层计算基础架构,即可提供无服务器作业调度。

先决条件

在创建 SageMaker 训练作业队列之前,请确保:

Create a SageMaker Training job queue (AWS Batch console)
  1. 打开 AWS Batch 控制台,网址为https://console.aws.amazon.com/batch/

  2. 在导航窗格中,选择 Job 队列创建

  3. 对于编排类型,请选择SageMaker 训练

  4. 对于 Job 队列配置

    1. 在 “名称” 中,输入 Job 队列的名称。

    2. 在 “优先级” 中,输入一个介于 0 和 1000 之间的值。优先级较高的 Job 队列优先于服务环境。

    3. (可选)对于计划策略 Amazon 资源名称(ARN),请选择现有的计划策略。

    4. 对于连接的服务环境,请从列表中选择要与作业队列关联的服务环境。

  5. (可选)对于 Job 状态限制

    1. 对于配置错误,请选择SERVICE_ENVIRONMENT_MAX_RESOURCE并输入最大可运行时间(秒)。

    2. 在 “容量” 中,选择INSUFFICIENT_INSTANCE_CAPACITY并输入最大可运行时间(秒)

  6. 选择创建作业队列

Create a SageMaker Training job queue (AWS CLI)

使用create-job-queue命令创建 SageMaker 训练作业队列。

以下示例创建了一个使用服务环境的基本 SageMaker 训练作业队列:

aws batch create-job-queue \ --job-queue-name my-sm-training-fifo-jq \ --job-queue-type SAGEMAKER_TRAINING \ --priority 1 \ --service-environment-order order=1,serviceEnvironment=ExampleServiceEnvironment

ExampleServiceEnvironment替换为服务环境的名称。

该命令返回的输出类似于下方内容:

{ "jobQueueName": "my-sm-training-fifo-jq", "jobQueueArn": "arn:aws:batch:region:account:job-queue/my-sm-training-fifo-jq" }

创建任务队列后,请验证该队列是否已成功创建且处于有效状态。

使用describe-job-queues命令查看有关您的任务队列的详细信息:

aws batch describe-job-queues --job-queues my-sm-training-fifo-jq

该命令返回的输出类似于下方内容:

{ "jobQueues": [ { "jobQueueName": "my-sm-training-fifo-jq", "jobQueueArn": "arn:aws:batch:region:account:job-queue/my-sm-training-fifo-jq", "state": "ENABLED", "status": "VALID", "statusReason": "JobQueue Healthy", "priority": 1, "computeEnvironmentOrder": [], "serviceEnvironmentOrder": [ { "order": 1, "serviceEnvironment": "arn:aws:batch:region:account:service-environment/ExampleServiceEnvironment" } ], "jobQueueType": "SAGEMAKER_TRAINING", "tags": {}, "jobStateTimeLimitActions": [] } ] }

请确保:

  • stateENABLED

  • statusVALID

  • statusReasonJobQueue Healthy

  • jobQueueTypeSAGEMAKER_TRAINING

  • 它们serviceEnvironmentOrder引用了你的服务环境