本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在中创建 SageMaker 训练作业队列 AWS Batch
SageMaker 训练作业队列直接与 SageMaker AI 服务集成,无需管理底层计算基础架构,即可提供无服务器作业调度。
先决条件
在创建 SageMaker 训练作业队列之前,请确保:
-
服务环境-定义容量限制的服务环境。有关更多信息,请参阅 在中创建服务环境 AWS Batch。
-
IAM 权限 — 创建和管理 AWS Batch 任务队列和服务环境的权限。有关更多信息,请参阅 AWS Batch IAM 策略、角色和权限。
- Create a SageMaker Training job queue (AWS Batch console)
-
打开 AWS Batch 控制台,网址为https://console.aws.amazon.com/batch/
。 -
在导航窗格中,选择 Job 队列和创建。
对于编排类型,请选择SageMaker 训练。
对于 Job 队列配置:
在 “名称” 中,输入 Job 队列的名称。
在 “优先级” 中,输入一个介于 0 和 1000 之间的值。优先级较高的 Job 队列优先于服务环境。
(可选)对于计划策略 Amazon 资源名称(ARN),请选择现有的计划策略。
对于连接的服务环境,请从列表中选择要与作业队列关联的服务环境。
(可选)对于 Job 状态限制:
对于配置错误,请选择
SERVICE_ENVIRONMENT_MAX_RESOURCE
并输入最大可运行时间(秒)。在 “容量” 中,选择
INSUFFICIENT_INSTANCE_CAPACITY
并输入最大可运行时间(秒)。
选择创建作业队列
-
- Create a SageMaker Training job queue (AWS CLI)
使用
create-job-queue
命令创建 SageMaker 训练作业队列。以下示例创建了一个使用服务环境的基本 SageMaker 训练作业队列:
aws batch create-job-queue \ --job-queue-name my-sm-training-fifo-jq \ --job-queue-type SAGEMAKER_TRAINING \ --priority 1 \ --service-environment-order order=1,serviceEnvironment=
ExampleServiceEnvironment
ExampleServiceEnvironment
替换为服务环境的名称。该命令返回的输出类似于下方内容:
{ "jobQueueName": "my-sm-training-fifo-jq", "jobQueueArn": "arn:aws:batch:
region
:account
:job-queue/my-sm-training-fifo-jq" }创建任务队列后,请验证该队列是否已成功创建且处于有效状态。
使用
describe-job-queues
命令查看有关您的任务队列的详细信息:aws batch describe-job-queues --job-queues my-sm-training-fifo-jq
该命令返回的输出类似于下方内容:
{ "jobQueues": [ { "jobQueueName": "my-sm-training-fifo-jq", "jobQueueArn": "arn:aws:batch:
region
:account
:job-queue/my-sm-training-fifo-jq", "state": "ENABLED", "status": "VALID", "statusReason": "JobQueue Healthy", "priority": 1, "computeEnvironmentOrder": [], "serviceEnvironmentOrder": [ { "order": 1, "serviceEnvironment": "arn:aws:batch:region
:account
:service-environment/ExampleServiceEnvironment
" } ], "jobQueueType": "SAGEMAKER_TRAINING", "tags": {}, "jobStateTimeLimitActions": [] } ] }请确保:
-
这
state
是ENABLED
-
这
status
是VALID
-
这
statusReason
是JobQueue Healthy
-
这
jobQueueType
是SAGEMAKER_TRAINING
-
它们
serviceEnvironmentOrder
引用了你的服务环境
-