Amazon Machine Learning 关键概念 - Amazon Machine Learning

我们不再更新 Amazon Machine Learning 服务,也不再接受新用户使用该服务。本文档可供现有用户使用,但我们不会再对其进行更新。有关更多信息,请参阅什么是 Amazon Machine Learning

Amazon Machine Learning 关键概念

本部分总结了以下关键概念并详细介绍了如何在 Amazon ML 中使用这些概念:

  • 数据源包含与 Amazon ML 输入数据相关的元数据

  • ML 模型使用从输入数据中提取的模式生成预测

  • 评估衡量 ML 模型的质量

  • 批量预测异步 为多个输入数据观察生成预测

  • 实时预测同步 为单个数据观察生成预测

数据源

数据源是包含有关输入数据的元数据的对象。Amazon ML 读取您的输入数据、计算其属性的描述性统计数据,并将统计数据与架构和其他信息一起存储为数据源对象的一部分。接下来,Amazon ML 使用数据源训练和评估 ML 模型并生成批量预测。

重要

数据源不存储输入数据的副本。而是存储输入数据所在的 Amazon S3 位置的引用。如果您移动或更改 Amazon S3 文件,Amazon ML 无法访问或使用该文件来创建 ML 模型、生成评估或生成预测。

下表定义了与数据源相关的术语。

期限 定义
属性

观察中唯一的指定属性。在采用表格格式的数据(例如,电子表格或逗号分隔的值 (CSV) 文件)中,列标题代表属性,而行包含每个属性的值。

同义词:变量、变量名称、字段、列

数据源名称 (可选)允许您为数据源定义一个便于阅读的名称。这些名称便于您在 Amazon ML 控制台中查找和管理您的数据源。
输入数据 数据源引用的所有观察的总称。
位置 输入数据的位置。目前,Amazon ML 可以使用存储在 Amazon S3 存储桶、Amazon Redshift 数据库或 Amazon Relational Database Service (RDS) 中的 MySQL 数据库中的数据。
观察

单个输入数据单位。例如,如果您创建的是检测欺诈交易的 ML 模型,您的输入数据将包含许多观察,每个观察表示单个交易。

同义词:记录、示例、实例、行

行 ID

(可选)此标记(如果指定)用于标识输入数据的将包含在预测输出中的属性。借助此属性,您可以更轻松地将预测与对应的观察进行关联。

同义词:行标识符

架构 解释输入数据时所需的信息,包括属性名及其分配的数据类型和特殊属性名。
统计数据

输入数据中每个属性的摘要统计信息。这些统计数据有两种用途:

Amazon ML 控制台将以图形方式显示这些数据,以帮助您了解您的数据概况和识别违规行为或错误。

Amazon ML 在训练过程中使用它们来改进生成的 ML 模型的质量。

状态 指示数据源的当前状态,例如正在进行已完成失败
目标属性

在训练 ML 模型的上下文中,目标属性会标识包含“正确”答案的输入数据中属性的名称。Amazon ML 使用此属性在输入数据中发现模式并生成 ML 模型。在评估和生成预测的上下文中,目标属性是值将由经过训练的 ML 模型进行预测的属性。

同义词:目标

ML 模型

ML 模型是通过在数据中查找模式来生成预测的数学模型。Amazon ML 支持三种类型的 ML 模型:二进制分类、多类别分类和回归。

下表定义了与 ML 模型相关的术语。

期限 定义
回归 训练回归 ML 模型的目标是预测数字值。
多类别 训练多类别 ML 模型的目标是预测属于有限的、预定义的允许值集的值。
二进制 训练二进制 ML 模型的目标是预测只能有两种状态之一的值,例如 true 或 false。
模型大小 ML 模型可以捕获和存储模式。ML 模型存储的模式越多,就会变得越大。ML 模型的大小以 MB 为单位。
扫描次数 训练 ML 模型时,您可以使用数据源中的数据。在学习过程中多次使用每个数据记录有时比一次使用更加有用。您让 Amazon ML 使用相同数据记录的次数称为扫描次数。
正则化 正则化是一种机器学习方法,可用来获得更高质量的模型。Amazon ML 提供适用于大多数情况的默认设置。

评估

评估可衡量您的 ML 模型的质量,并确定它是否表现良好。

下表定义了与评估相关的术语。

期限 定义
模型洞察 Amazon ML 会为您提供一个指标和许多洞察,您可以用这些来评估模型的预测性能。
AUC ROC 曲线下面积 (AUC) 测量二进制 ML 模型为正面示例预测比负面示例更高分数的能力。
宏平均 F1 分数 宏平均 F1 分数用于评估多类别 ML 模型的预测性能。
RMSE 均方根误差 (RMSE) 是用于评估回归 ML 模型的预测性能的指标。
截断 ML 模型通过生成数字预测分数来工作。通过应用截断值,系统可将这些分数转换为 0 和 1 标签。
准确度 准确度可测量正确预测的百分比。
精度 精度显示在已检索的实例(预测为阳性)中,实际阳性实例(相对于假阳性)的百分比。换言之,所选项目有多少是阳性?
召回率 召回率显示了在相关实例总数中实际阳性的百分比(实际阳性)。换言之,阳性项目有多少已选定?

批量预测

批量预测功能可以一次性运行一组观察。这非常适合于没有实时要求的预测分析。

下表定义了与批量预测相关的术语。

期限 定义
输出位置 批量预测结果存储在 S3 存储桶输出位置。
清单文件 此文件将每个输入数据文件与其关联的批量预测结果相关联。它存储在 S3 存储桶输出位置。

实时预测

实时预测适用于具有低延迟要求的应用程序,例如交互式 Web、移动或桌面应用程序。任何 ML 模型都可通过低延迟实时预测 API 查询预测。

下表定义了与实时预测相关的术语。

期限 定义
实时预测 API 实时预测 API 接受请求负载中的单个输入观察并在响应中返回预测。
实时预测终端节点 要将使用 ML 模型与实时预测 API 配合使用,您需要创建实时预测终端节点。创建后,此终端节点包含可用来请求实时预测的 URL。