特征处理 - Amazon Machine Learning

我们不再更新 Amazon Machine Learning 服务,也不再接受新用户使用该服务。本文档可供现有用户使用,但我们不会再对其进行更新。有关更多信息,请参阅什么是 Amazon Machine Learning

特征处理

在通过数据摘要和可视化了解您的数据之后,您可能希望进一步转换变量以使其更有意义。这称为特征处理。例如,假如您有一个变量,用于捕获发生事件时的日期和时间。此日期和时间永远不会再次出现,因此对于预测您的目标不会有用。但是,如果此变量转换表示一天中几点、一周中日期和月份的特征,这些变量会非常有用,用于了解在特定小时、工作日或月份发生事件的趋势。这种特征处理用于形成可以从中学习的更可概括的数据点,提供对预测模型的显著改进。

其他常见特征处理的示例:

  • 使用更有意义的值替换缺失或无效的数据(例如,如果您知道某个产品类型变量的缺失值实际上意味着图书,您随后可以使用图书的值替换该产品类型中的所有缺失值)。处理缺失值的一种常用策略是使用平均值或中值替换缺失值。重要的是在选择用于替换缺失值的策略之前了解您的数据。

  • 将一个变量与另一个变量构成笛卡尔积。例如,如果您有两个变量,例如人口密度(urban、suburban、rural)和州(Washington、Oregon、California),通过将这两个变量的笛卡尔积构成一个特征(urban_Washington、suburban_Washington、rural_Washington、urban_Oregon、suburban_Oregon、rural_Oregon、urban_California、suburban_California、rural_California),可以从该特征中获得有用信息。

  • 非线性转换,例如分箱数值变量转换为分类。在许多情况下,数值特征与目标之间的关系并非线性(特征值不随目标单增或单)。在这种情况下,将数值特征分箱到表示数值特征不同范围的分类特征中可能会很有用。然后,每个分类特征(分箱)可以建模为具有与目标的自身线性关系。例如,假设您知道连续数值特征 age 与购买某书的可能性并非线性相关。您可以将寿命分箱到可以更准确捕获与目标关系的分类特征。数值变量的最佳分箱数量取决于变量的特性及其与目标的关系,最好通过试验来确定。Amazon ML 建议,基于建议配方中的数据统计信息确定数值特征的最佳分箱数量。有关建议配方 的详细信息,请参阅开发人员指南。

  • 域特有的特征(例如,您有长度、宽度和高度作为单独的变量;您可以创建一个新的体积特征作为这三个变量的积)。

  • 变量特有的特征。一些变量类型,例如文本特征、捕获网页结构的特征或者句子结构的特征具有通用的处理方式,可以帮助提取结构和上下文。例如,从文本“the fox jumped over the fence”构成 n 元 可以使用一元 表示:the、fox、jumped、over、fence,或者使用二元:the fox、fox jumped、jumped over、over the、the fence。

包括更多相关特征有助于提高预测能力。显然,并不总是有可能预先知道具有“信号”或预测影响力的特征。因此,最好包括所有可能与目标标签相关的特征,并让模型训练算法选取具有最强相关性的特征。在 Amazon ML 中,创建模型时可以在配方中指定特征处理。有关可用特征处理器的列表,请参阅开发人员指南。