我们不再更新 Amazon Machine Learning 服务,也不再接受新用户使用该服务。本文档可供现有用户使用,但我们不会再对其进行更新。有关更多信息,请参阅什么是 Amazon Machine Learning。
Amazon Machine Learning 关键概念
本部分总结了以下关键概念并详细介绍了如何在 Amazon ML 中使用这些概念:
数据源
数据源是包含有关输入数据的元数据的对象。Amazon ML 读取您的输入数据、计算其属性的描述性统计数据,并将统计数据与架构和其他信息一起存储为数据源对象的一部分。接下来,Amazon ML 使用数据源训练和评估 ML 模型并生成批量预测。
重要
数据源不存储输入数据的副本。而是存储输入数据所在的 Amazon S3 位置的引用。如果您移动或更改 Amazon S3 文件,Amazon ML 无法访问或使用该文件来创建 ML 模型、生成评估或生成预测。
下表定义了与数据源相关的术语。
期限 | 定义 |
---|---|
属性 |
观察中唯一的指定属性。在采用表格格式的数据(例如,电子表格或逗号分隔的值 (CSV) 文件)中,列标题代表属性,而行包含每个属性的值。 同义词:变量、变量名称、字段、列 |
数据源名称 | (可选)允许您为数据源定义一个便于阅读的名称。这些名称便于您在 Amazon ML 控制台中查找和管理您的数据源。 |
输入数据 | 数据源引用的所有观察的总称。 |
位置 | 输入数据的位置。目前,Amazon ML 可以使用存储在 Amazon S3 存储桶、Amazon Redshift 数据库或 Amazon Relational Database Service (RDS) 中的 MySQL 数据库中的数据。 |
观察 |
单个输入数据单位。例如,如果您创建的是检测欺诈交易的 ML 模型,您的输入数据将包含许多观察,每个观察表示单个交易。 同义词:记录、示例、实例、行 |
行 ID |
(可选)此标记(如果指定)用于标识输入数据的将包含在预测输出中的属性。借助此属性,您可以更轻松地将预测与对应的观察进行关联。 同义词:行标识符 |
架构 | 解释输入数据时所需的信息,包括属性名及其分配的数据类型和特殊属性名。 |
统计数据 |
输入数据中每个属性的摘要统计信息。这些统计数据有两种用途: Amazon ML 控制台将以图形方式显示这些数据,以帮助您了解您的数据概况和识别违规行为或错误。 Amazon ML 在训练过程中使用它们来改进生成的 ML 模型的质量。 |
状态 | 指示数据源的当前状态,例如正在进行、已完成或失败。 |
目标属性 |
在训练 ML 模型的上下文中,目标属性会标识包含“正确”答案的输入数据中属性的名称。Amazon ML 使用此属性在输入数据中发现模式并生成 ML 模型。在评估和生成预测的上下文中,目标属性是值将由经过训练的 ML 模型进行预测的属性。 同义词:目标 |
ML 模型
ML 模型是通过在数据中查找模式来生成预测的数学模型。Amazon ML 支持三种类型的 ML 模型:二进制分类、多类别分类和回归。
下表定义了与 ML 模型相关的术语。
期限 | 定义 |
---|---|
回归 | 训练回归 ML 模型的目标是预测数字值。 |
多类别 | 训练多类别 ML 模型的目标是预测属于有限的、预定义的允许值集的值。 |
二进制 | 训练二进制 ML 模型的目标是预测只能有两种状态之一的值,例如 true 或 false。 |
模型大小 | ML 模型可以捕获和存储模式。ML 模型存储的模式越多,就会变得越大。ML 模型的大小以 MB 为单位。 |
扫描次数 | 训练 ML 模型时,您可以使用数据源中的数据。在学习过程中多次使用每个数据记录有时比一次使用更加有用。您让 Amazon ML 使用相同数据记录的次数称为扫描次数。 |
正则化 | 正则化是一种机器学习方法,可用来获得更高质量的模型。Amazon ML 提供适用于大多数情况的默认设置。 |
评估
评估可衡量您的 ML 模型的质量,并确定它是否表现良好。
下表定义了与评估相关的术语。
期限 | 定义 |
---|---|
模型洞察 | Amazon ML 会为您提供一个指标和许多洞察,您可以用这些来评估模型的预测性能。 |
AUC | ROC 曲线下面积 (AUC) 测量二进制 ML 模型为正面示例预测比负面示例更高分数的能力。 |
宏平均 F1 分数 | 宏平均 F1 分数用于评估多类别 ML 模型的预测性能。 |
RMSE | 均方根误差 (RMSE) 是用于评估回归 ML 模型的预测性能的指标。 |
截断 | ML 模型通过生成数字预测分数来工作。通过应用截断值,系统可将这些分数转换为 0 和 1 标签。 |
准确度 | 准确度可测量正确预测的百分比。 |
精度 | 精度显示在已检索的实例(预测为阳性)中,实际阳性实例(相对于假阳性)的百分比。换言之,所选项目有多少是阳性? |
召回率 | 召回率显示了在相关实例总数中实际阳性的百分比(实际阳性)。换言之,阳性项目有多少已选定? |
批量预测
批量预测功能可以一次性运行一组观察。这非常适合于没有实时要求的预测分析。
下表定义了与批量预测相关的术语。
期限 | 定义 |
---|---|
输出位置 | 批量预测结果存储在 S3 存储桶输出位置。 |
清单文件 | 此文件将每个输入数据文件与其关联的批量预测结果相关联。它存储在 S3 存储桶输出位置。 |
实时预测
实时预测适用于具有低延迟要求的应用程序,例如交互式 Web、移动或桌面应用程序。任何 ML 模型都可通过低延迟实时预测 API 查询预测。
下表定义了与实时预测相关的术语。
期限 | 定义 |
---|---|
实时预测 API | 实时预测 API 接受请求负载中的单个输入观察并在响应中返回预测。 |
实时预测终端节点 | 要将使用 ML 模型与实时预测 API 配合使用,您需要创建实时预测终端节点。创建后,此终端节点包含可用来请求实时预测的 URL。 |