本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
AWS Batch 支持 A SageMaker I 训练作业
AWS Batch 作业队列存储已提交的作业并对其进行优先排序,然后再使用计算资源运行这些作业。您可以将 SageMaker AI 训练作业提交到作业队列,以便利用提供的无服务器作业计划和优先级划分工具。 AWS Batch
工作方式
以下步骤描述了如何将 AWS Batch 作业队列与 SageMaker AI 训练作业配合使用的工作流程。有关更详细的教程和示例笔记本,请参阅开始使用部分。
-
设置 AWS Batch 和任何必要的权限。有关更多信息,请参阅《AWS Batch 用户指南》中的设置 AWS Batch。
-
在控制台中或使用创建以下 AWS Batch 资源 AWS CLI:
-
服务环境-包含用于与 SageMaker AI 集成的配置参数。
-
SageMaker AI 训练作业队列 — 与 SageMaker AI 集成以提交训练作业。
-
-
配置您的详细信息并请求 A SageMaker I 训练作业,例如您的训练容器镜像。要向 AWS Batch 队列提交训练作业,你可以使用 适用于 Python (Boto3) 的 AWS SDK、或 SageMaker AI Python SDK。 AWS CLI
-
将您的训练作业提交到作业队列。您可以使用以下选项来提交作业:
-
使用 AWS Batch SubmitServiceJob API。
-
使用 SageMaker AI Python 软件开发工具包中的
aws_batch
模块。创建 TrainingQueue 对象和模型训练对象(例如 Estimator 或 ModelTrainer)后,您可以使用 TrainingQueue 方法向提交训练作业。 queue.submit()
-
-
提交作业后,使用 AWS Batch 控制台、API 或 SageMaker A AWS Batch DescribeServiceJobDescribeTrainingJobI API 查看您的任务队列和任务状态。
成本和可用性
有关训练作业的详细定价信息,请参阅 Amazon A SageMaker I 定价
您可以在任何有训练作业 AWS 区域 的地方用 AWS Batch 于 SageMaker AI 训练作业。有关更多信息,请参阅 Amazon A SageMaker I 终端节点和配额。
为了确保在需要时拥有所需的容量,您可以使用 SageMaker AI 灵活训练计划 (FTP)。这些计划允许您为培训工作预留容量。与 AWS Batch的排队功能结合使用时,您可以在计划有效期内最大限度地提高利用率。有关更多信息,请参阅为您预留训练任务或 HyperPod 集群的训练计划。
开始使用
有关如何设置 AWS Batch 作业队列和提交 SageMaker AI 训练作业的教程,请参阅AWS Batch 用户指南中的 SageMaker AI 入门。 AWS Batch
有关展示如何在 AI Py SageMaker thon SDK 中使用该aws_batch
模块的 Jupyter 笔记本,请参阅存储库AWS Batch 中的 SageMaker AI Training 作业笔记本示例