使用亚马逊自动SageMaker驾驶仪自动进行模型开发 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

使用亚马逊自动SageMaker驾驶仪自动进行模型开发

Amazon A SageMaker utopilot 是一项功能集,它通过自动化构建和部署机器学习模型 (AutoML) 的过程来简化和加速机器学习工作流程的各个阶段。

自动驾驶仪执行以下关键任务,您可以在自动驾驶仪(因此得名)或不同程度的人工指导下使用这些任务:

  • 数据分析和预处理:Autopilot 可识别您的特定问题类型,处理缺失值,对数据进行标准化,选择特征,为模型训练全面准备数据。

  • 模型选择:Autopilot 探索各种算法,并使用交叉验证重采样技术生成指标,根据预定义的目标指标评估算法的预测质量。

  • 超参数优化:Autopilot 可自动搜索最佳超参数配置。

  • 模型训练和评估:Autopilot 可自动执行训练和评估各种候选模型的过程。它将数据拆分为训练集和验证集,使用训练数据训练选定的候选模型,并根据验证集的不可见数据评估他们的表现。最后,它根据优化的候选模型的性能对其进行排名,并确定性能最佳的模型。

  • 模型部署:一旦Autopilot确定了性能最佳的模型,它就会通过生成模型工件和端点公开 API(应用程序编程接口)来提供自动部署模型的选项。外部应用程序可以向端点发送数据并接收相应的预测或推断。

Autopilot 支持在高达数百 GB 的大型数据集上构建机器学习模型。

以下内容概述了由 Autopilot 管理的此自动机器学习流程的任务。


      亚马逊SageMaker自动驾驶自动机器学习流程概述。

根据你对机器学习过程和编码体验的熟悉程度,你可以通过不同的方式使用 Autopilot:

  • 使用亚马逊 SageMaker Studio 用户界面,无需任何额外的人工输入即可实现全自动模式。这种方法需要最少的编码或技术知识。只有通过表格数据为回归或分类等问题类型创建的实验才能通过 Studio 用户界面获得。

  • 带有特定变量的人工输入。您可以为实验提供特定的变量,从而提供一定程度的人工指导。用户可以更好地自定义和控制机器学习实验的创建。

  • 使用 SDK 实现代码。如果您有编程经验,则可以使用可用的软件开发套件 (SDK) 在自己的代码中创建自动驾驶实验。这种方法提供了更大的灵活性和自定义选项。

自动驾驶目前支持以下问题类型:

  • 使用格式化为 CSV 或 Parquet 文件的表格数据进行@@ 回归、二进制和多类分类,其中每列包含具有特定数据类型的要素,每行包含一个观测值。接受的列数据类型包括数字、类别、文本和由逗号分隔的数字字符串组成的时间序列。

  • 使用格式化为 CSV 或 Parquet 文件的数据进行@@ 文本分类,其中一列提供要分类的句子,而另一列应提供相应的类别标签。

  • 使用 PNG、JPEG 等图像格式或两者的组合进行图像@@ 分类

注意

对于涉及表格数据的回归或分类问题,用户可以在两个选项之间进行选择:使用 Studio 用户界面或同时使用 API 参考的两个版本。

文本和图像分类等任务只能通过最新版本的 SageMaker API 来完成。但是,喜欢用户界面便利性的用户可以使用 Amazon SageMaker Canvas 访问预先训练的模型或创建针对特定图像或文本分类需求量身定制的自定义模型。

此外,Autopilot 通过自动生成显示每项功能重要性的报告,帮助用户了解模型是如何进行预测的。这为影响预测的因素提供了透明度和见解,可供风险和合规团队以及外部监管机构使用。Autopilot 还提供模型性能报告,其中包括评估指标摘要、混淆矩阵、各种可视化结果,例如接收器工作特性曲线和精度召回曲线等。每份报告的具体内容因自动驾驶实验的问题类型而异。

Autopilot的可解释性和性能报告适用于所有问题类型,以供最佳模型候选人使用。

对于回归或分类等表格数据用例,Autopilot 通过生成包含用于探索数据和找到最佳性能模型的代码的笔记本,进一步了解数据是如何处理的,以及如何选择、训练和调整候选模型。这些笔记本提供了一个互动和探索性环境,可帮助您了解各种输入的影响或实验中做出的权衡取舍。您可以通过自己修改 Autopilot 提供的数据探索和候选定义笔记本,进一步尝试性能更高的候选模型。

使用亚马逊SageMaker,您只需按实际用量付费。您可以根据自己的使用情况为SageMaker或其他AWS服务中的底层计算和存储资源付费。有关使用费用的更多信息SageMaker,请参阅亚马逊SageMaker定价