收集标记的数据 - Amazon Machine Learning

我们不再更新 Amazon Machine Learning 服务,也不再接受新用户使用该服务。本文档可供现有用户使用,但我们不会再对其进行更新。有关更多信息,请参阅什么是 Amazon Machine Learning

收集标记的数据

ML 问题从数据开始 - 最好是您已知道其目标答案的大量数据(示例或观察)。已知其目标答案的数据称为标记的数据。在受监管 ML 中,算法教育自身从我们提供的标记的示例进行学习。

您的数据中的每个示例/观察必须包含两个元素:

  • 目标 - 您要预测的答案。您向 ML 算法提供标记为目标(正确答案)的数据以从中学习。然后,您将使用经过训练的 ML 模型,对您不知道目标答案的数据来预测此答案。

  • 变量/特征 - 这些示例属性可用于识别要预测目标答案的模式。

例如,对于电子邮件分类问题,目标是指示电子邮件是否为垃圾邮件的标签。变量示例是电子邮件发件人、电子邮件正文中的文本、主题行中的文本、电子邮件的发送时间以及发件人和收件人之间是否存在以前的通信信息。

通常,数据并不是使用已标记的形式提供。收集并准备变量和目标通常是解决 ML 问题最重要的步骤。示例数据应为在您使用模型进行预测时具有代表性的数据。例如,如果您希望预测电子邮件是否为垃圾邮件,您必须为机器学习算法收集阳性(垃圾电子邮件)和阴性(非垃圾电子邮件),这样才能查找可以区别两种类型电子邮件的模式。

在您具有标记的数据之后,您可能需要将它转换为您的算法或软件可接受的格式。例如,要使用 Amazon ML,您需要将数据转换为逗号分隔 (CSV) 格式,每个示例组成 CSV 文件的一行,每列包含一个输入变量,并且有一列包含目标答案。