评估警报 - Amazon Machine Learning

我们不再更新 Amazon Machine Learning 服务,也不再接受新用户使用该服务。本文档可供现有用户使用,但我们不会再对其进行更新。有关更多信息,请参阅什么是 Amazon Machine Learning

评估警报

Amazon ML 提供见解,帮助验证您是否已正确评估模型。如果评估不满足任何验证标准,Amazon ML 控制台会显示已违反的验证标准来提醒您,如下所示。

  • 已对留存数据完成 ML 模型的评估

    如果您对训练和评估使用同一个数据源,Amazon ML 会发出警报。如果您使用 Amazon ML 拆分数据,您将符合此有效性标准。如果您不使用 Amazon ML 来拆分数据,请务必使用训练数据源以外的数据源评估您的 ML 模型。

  • 已将足量数据用于预测模型评估

    如果评估数据中的观察数/记录数少于训练数据源中观察数的 10%,Amazon ML 会发出警报。要正确地评估您的模型,必须提供足够大量的数据样本,这一点很重要。此标准提供了一个检查,让您知道您使用的数据是否太少。您的 ML 模型评估所需的数据量是主观决定的。在此处选择 10% 是作为缺乏更好措施时的权宜之计。

  • 架构已匹配

    如果训练和评估数据源的架构不相同,Amazon ML 会发出警报。如果您的某些属性在评估数据源中不存在,或者如果您有其他属性,Amazon ML 会显示此警报。

  • 评估文件中的所有记录已用于预测模型性能评估

    请务必了解用于评估的所有记录是否实际用于评估相应模型。如果评估数据源中的某些记录无效,并且未包含在准确性指标计算中,Amazon ML 会向您发出警报。例如,如果在评估数据源过程中,一些观察的目标变量缺失,Amazon ML 将无法检查针对这些观察的 ML 模型预测是否正确。在这种情况下,记录与缺失的目标值将被视为无效。

  • 目标变量的分布

    Amazon ML 向您展示来自训练和评估数据源的目标属性的分布,以便您可以查看这两个数据源中的目标分布是否相似。对于利用训练数据建立的模型,如果其目标分布不同于评估数据的目标分布,则评估质量可能会受到影响,因为计算评估时依据的数据具有完全不同的统计数据。最好让训练数据和评估数据具有相似的数据分布,并让这些数据集尽可能地模拟在进行预测时模型将遇到的数据。

    如果此警报触发,请尝试使用随机拆分策略将数据拆分为训练数据源和评估数据源。在极少数情况下,该警报可能会错误地提醒您目标分布还是有区别,即使您随机拆分了数据。Amazon ML 使用近似统计数据来评估数据分布,有时会错误地触发此警报。