模型拟合:欠拟合与过度拟合 - Amazon Machine Learning

我们不再更新 Amazon Machine Learning 服务或接受新用户使用该服务。本文档可供现有用户使用,但我们不再更新它。有关更多信息,请参阅 。什么是 Amazon Machine Learning

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

模型拟合:欠拟合与过度拟合

了解模型拟合对于了解模型准确性欠佳至关重要。这些了解将引导您采取纠正步骤。我们可以通过查看训练数据和评估数据的预测错误来确定预测模型是欠拟合还是过度拟合。

模型在训练数据上性能糟糕时,您的模型欠拟合。这是因为模型无法捕获输入示例 (通常称为 X) 与目标值 (通常称为 Y) 之间的关系。当您看到模型在训练数据上表现良好但在评估数据上表现不好时,表示您的模型过度拟合。这是因为模型记住了曾看到的数据,但无法归纳为未看过的示例。

训练数据的性能欠佳可能是因为模型太简单 (输入特征表述性不够) 而无法很好地描述目标。可以通过提升模型灵活性来改进性能。要提高模型的灵活性,请尝试以下操作:

  • 添加新的域特有特征和更多特征笛卡尔积,并更改特征处理所用的类型 (例如,增加 n 元大小)

  • 减少使用的正则化数量

如果您的模型过度拟合训练数据,合理的做法是采取措施来降低模型的灵活性。要减少模型的灵活性,请尝试以下操作:

  • 特征选择:考虑使用更少的特征组合,减少 n 元大小,以及减少数字属性分箱的数量。

  • 增加使用的正则化数量。

训练和测试数据的准确性可能很糟糕,因为学习算法没有足够的数据来学习。您可以通过以下操作提高性能:

  • 增加训练数据示例的数量。

  • 增加现有训练数据的扫描次数。