SageMaker Autopilot - Amazon SageMaker

SageMaker Autopilot

Amazon SageMaker Autopilot 是一种功能组合,它通过自动实施构建和部署机器学习模型 (AutoML) 的流程,来简化和加速机器学习工作流的各个阶段。

Autopilot 执行以下关键任务,您可以像自动驾驶(autopilot,该服务因此得名)那样使用它,也可以在不同程度的人工指导下使用这些任务:

  • 数据分析和预处理:Autopilot 可识别您的特定问题类型,处理缺失值,对数据进行标准化,选择特征,全面准备数据用于模型训练。

  • 模型选择:Autopilot 探索了各种算法,并使用交叉验证重采样技术生成指标,以根据预定义的目标指标来评估算法的预测质量。

  • 超参数优化:Autopilot 可自动搜索最佳超参数配置。

  • 模型训练和评估:Autopilot 可自动执行对各种候选模型的训练和评估过程。它将数据拆分为训练集和验证集,使用训练数据对选定的候选模型进行训练,并根据验证集中未用于训练的数据来评估其性能。最后,它根据模型的性能对优化候选模型进行排名,并确定性能最佳的模型。

  • 模型部署:Autopilot 确定了性能最佳的模型之后,它就会提供选项,通过生成模型构件和公开 API(Application Programming Interface,应用程序编程接口)的端点来自动部署模型。外部应用程序可以将数据发送到端点并接收相应的预测或推理。

Autopilot 支持在高达数百 GB 的大型数据集上构建机器学习模型。

下文概述了 Autopilot 管理的此 AutoML 流程的任务。


      Amazon SageMaker Autopilot AutoML 流程概述。

根据您对机器学习过程和编码体验的接受程度,您可以通过不同的方式使用 Autopilot:

  • 使用 Amazon SageMaker Studio UI,无需任何额外的人工输入即可实现全自动模式。这种方法需要的编码或技术知识最少。只有针对回归或分类等问题类型,从表格数据创建的实验才能通过 Studio UI 使用。

  • 在 Amazon SageMaker Studio 用户界面中使用特定选项和参数选择进行人工输入。通过选择特定的选项和参数值,用户可以更好地自定义和控制机器学习实验的创建。

  • 使用 SDK 的代码实施。如果您有编程经验,则可以使用可用的软件开发工具包 (SDK),通过自己的代码创建 Autopilot 实验。这种方法提供了更大的灵活性和自定义选项。

Autopilot 目前支持以下问题类型:

  • 回归、二元分类和多元分类,使用 CSV 或 Parquet 文件格式的表格数据,其中每列包含具有特定数据类型的特征,每行包含一个观察数据。接受的列数据类型包括由数字、分类、文本和由逗号分隔数字字符串组成时间序列。

  • 文本分类,使用 CSV 或 Parquet 文件格式的数据,其中一列提供要分类的句子,而另一列应提供相应的类标签。

  • 图像分类,使用 PNG 和/或 JPEG 等图像格式。

  • 时间序列预测,使用 CSV 或 Parquet 文件格式的时间序列数据。

  • 文本生成,使用 CSV 或 Parquet 文件格式的数据微调大型语言模型 (LLM)。

注意

对于涉及表格数据的回归或分类问题,用户可以在两个选项之间进行选择:使用 Studio 用户界面或 API 参考

文本和图像分类、时间序列预测或 LLM 微调等任务只能通过最新版本的 SageMaker API 使用。用户如果偏好用户界面的便利性,则可以使用 Amazon SageMaker Canvas 访问预训练模型或者创建自定义的模型,针对特定文本、图像分类或预测需求进行定制。

此外,Autopilot 可自动生成显示每个特征重要性的报告,帮助用户了解模型如何进行预测。这有助于透明地了解影响预测的因素,可供风险与合规团队和外部监管机构使用。Autopilot 还提供模型性能报告,其中包括评估指标摘要、混淆矩阵、各种可视化内容,例如接收者操作特征曲线和查准率-查全率曲线等。每份报告的具体内容因 Autopilot 实验的问题类型而异。

Autopilot 的解释功能和性能报告可用于最佳候选模型的所有问题类型。

对于回归或分类之类的表格数据使用场景,Autopilot 生成笔记本,其中包含用于探索数据和寻找性能最佳模型的代码,以帮助进一步了解数据的处理方式以及如何选择、训练和调整候选模型。这些笔记本提供了一个交互式的探索性环境,可帮助您了解实验中各种输入的影响或权衡取舍。通过对 Autopilot 提供的数据探索和候选项定义笔记本进行自己的修改,您可以进一步实验更高性能的候选模型。

使用 Amazon SageMaker,您只需按实际用量付费。根据使用量,您为在 SageMaker 或其他 AWS 服务中使用的底层计算和存储资源付费。有关使用 SageMaker 的成本的更多信息,请参阅 Amazon SageMaker 定价