启用训练 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

启用训练

添加要共享的模型时,您可以选择提供训练环境,并允许组织中的协作者训练共享的模型。

注意

如果您要添加表格模型,则还需要指定列格式和目标列以启用训练。有关更多信息,请参阅《亚马逊 SageMaker 开发者指南》中的 Amazon SageMaker Canvas

提供有关模型的基本详细信息后,您需要为将用于训练模型的训练作业配置设置。这包括指定容器环境、代码脚本、数据集、输出位置和其他各种参数来控制训练作业的执行方式。要配置训练作业设置,请执行以下步骤:

  1. 添加用于模型训练的容器。您可以选择用于现有训练作业的容器,将自己的容器带到亚马逊ECR,或者使用亚马逊 SageMaker 深度学习容器。

  2. 添加环境变量。

  3. 提供训练脚本位置。

  4. 提供脚本模式入口点。

  5. 为训练期间生成的模型项目提供 Amazon S3 URI。

  6. 将 Amazon S3 提供URI给默认训练数据集。

  7. 提供模型输出路径。模型输出路径应为训练生成的任何模型项目的 Amazon S3 URI 路径。 SageMaker 将模型工件作为单个压缩TAR文件保存到 Amazon S3 中。

  8. 提供验证数据集,用于在训练期间评估您的模型。验证数据集必须包含与训练数据集相同的列数和相同的特征标题。

  9. 开启网络隔离。网络隔离可隔离模型容器,这样就无法通过模型容器进行入站或出站网络调用。

  10. 提供培训渠道,通过这些渠道 SageMaker 可以访问您的数据。例如,您可以指定名为 traintest 的输入通道。对于每个频道,请指定频道名称和数据位置。URI选择浏览以搜索 Amazon S3 位置。

  11. 提供超参数。添加任意超参数,合作者在训练期间应使用这些参数进行实验。为这些超参数提供一系列有效值。此范围用于训练作业超参数验证。您可以根据超参数的数据类型定义范围。

  12. 选择一个实例类型。对于大批量训练,我们建议使用具有更多内存的GPU实例。有关各 AWS 区域 SageMaker 训练实例的完整列表,请参阅 Amazon Pricing 中的按需 SageMaker 定价表。

  13. 提供指标。通过为训练作业所监控的各个指标指定名称和正则表达式,定义训练作业的指标。设计正则表达式以捕获您的算法发出的指标值。例如,指标 loss 可以具有正则表达式 "Loss =(.*?);"