我们不再更新 Amazon Machine Learning 服务,也不再接受新用户使用该服务。本文档可供现有用户使用,但我们不会再对其进行更新。有关更多信息,请参阅什么是 Amazon Machine Learning。
特征转换的重要性
请考虑任务是确定信用卡交易是否是欺诈行为的机器学习模型。根据您的应用背景知识和数据分析结果,您可能需要确定哪些数据字段 (或特征) 务必要包含在输入数据中。例如,交易金额、商户名称、地址和信用卡所有者的地址都必须提供给模型学习过程。另一方面,随机生成的交易 ID 不含信息 (如果我们知道该 ID 确实是随机的),因此没有用处。
确定要包含哪些字段之后,您可以转换这些特征,以帮助学习过程。通过转换为输入数据添加背景经验,可让机器学习模型从中受益。例如,以下商户地址将用字符串表示:
"123 Main Street, Seattle, WA 98101"
地址本身的表达能力有限,它只对与确切地址相关的学习模式有用。但是,将其分成各组成部分可创建其他特征,例如“地址”(123 Main Street)、“城市”(Seattle)、“州”(WA) 和“邮政编码”(98101)。现在,学习算法可以将多个离散的交易分组在一起并发现更广泛的模式,可能某些商户邮政编码遭遇欺诈行为的几率比其他商户更多。
有关特征转换方法和过程的更多信息,请参阅机器学习概念。