指标参考 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

指标参考

以下各节介绍了 Amazon SageMaker Canvas 中针对每种模型类型提供的指标。

数值预测的指标

以下列表定义了 SageMaker Canvas 中数值预测的指标,并提供了有关如何使用这些指标的信息。

  • InferenceLatency — 从发出模型预测请求到从部署模型的实时端点接收模型预测的大致时间。该指标以秒为单位进行测量,仅适用于使用 Ensemblin g 模式构建的模型。

  • MAE – 平均绝对误差。平均而言,目标列的预测值与实际值相差 +/- {MAE}。

    衡量预测值和实际值相对于所有值的平均值的差异程度。MAE 通常用于数值预测,以了解模型预测误差。如果预测是线性的,则 MAE 表示从预测线到实际值的平均距离。MAE 定义为绝对误差之和除以观察数据的数量。值的范围从 0 到无穷大,数字越小表示模型对数据的拟合效果越好。

  • MAPE - 平均绝对误差百分比。平均而言,目标列的预测值与实际值相比为 +/-{MAPE}%。

    MAPE 是实际值与预测值或估计值之间的绝对差值的平均值,除以实际值并以百分比表示。MAPE 越低表示性能越好,因为这意味着预测值或估计值更接近实际值。

  • MSE — 均方误差,或预测值与实际值之间的平方差的平均值。

    MSE 值始终为正值。模型在预测实际值方面的表现越好,MSE 值就越小。

  • R2 - 输入列可以解释的目标列差异百分比。

    量化模型在多大程度上可以解释因变量的方差。值范围从壹 (1) 到负壹 (-1)。数字越高表示解释的变异性比例越高。接近零 (0) 的值表示模型几乎无法解释因变量。负值表示拟合不佳,且常量函数(或水平线)优于模型。

  • RMSE — 均方根误差,或误差的标准差。

    测量预测值和实际值之间平方差的平方根,并对所有值求平均值。它用于了解模型预测误差,也是指示存在较大模型误差和异常值的重要指标。值的范围从零 (0) 到无穷大,数字越小表示模型对数据的拟合效果越好。RMSE 依赖于规模,不应用于比较不同类型的数据集。

分类预测的指标

本节定义了 SageMaker Canvas 中分类预测的指标,并为您提供有关如何使用这些指标的信息。

以下是双类别预测的可用指标列表:

  • 准确性 – 正确预测的百分比。

    或者,正确预测的项目数与预测总数的比率。准确性衡量预测类值与实际值的接近程度。准确性指标的值在零 (0) 和壹 (1) 之间变化。值为 1 表示精度完美,0 表示完全不准确。

  • AUC – 介于 0 和 1 之间的值,表示模型能在多大程度上分离数据集中的类别。值为 1 表示它能够完美地分离类别。

  • BalancedAccuracy — 测量准确预测与所有预测的比率。

    该比率是在根据阳性 (P) 和阴性 (N) 值总数,对真阳性 (TP) 和真阴性 (TN) 进行标准化后计算得出的。它的定义如下:0.5*((TP/P)+(TN/N)),其值范围为 0 到 1。当在不平衡的数据集中,正面或负面的数量相差很大,例如只有 1% 的电子邮件是垃圾邮件时,平衡的准确度指标可以更好地衡量准确性。

  • F1 – 将类别平衡考虑在内的一种平衡的准确性度量。

    它是精度和召回率分数的谐波平均值,定义如下:F1 = 2 * (precision * recall) / (precision + recall)。F1 分数介于 0 和 1 之间。分数为 1 表示具有最佳性能,0 表示性能最差。

  • InferenceLatency — 从发出模型预测请求到从部署模型的实时端点接收模型预测的大致时间。该指标以秒为单位进行测量,仅适用于使用 Ensemblin g 模式构建的模型。

  • LogLoss — 对数损失,也称为交叉熵损失,是一种用于评估概率输出质量的指标,而不是输出本身。对数损失是一个重要指标,指示模型何时有很高的概率做出了错误预测。值范围为 0 到无穷大。值为 0 表示可以完美预测数据的模型。

  • 精度 — 在 {类别 x} 的所有预测时间中,预测在所有时间都是正确的 {precision}%。

    查准率衡量算法预测的真阳性 (TP) 占所识别的全部阳性的比例。它的定义如下:Precision = TP/(TP+FP),其值范围从零 (0) 到一 (1)。当假阳性的成本很高时,查准率是一个重要指标。例如,如果飞机安全系统错误地认为可以安全飞行,则假阳性的成本非常高。假阳性 (FP) 反映的是预测为阳性,而在数据中实际为阴性的情况。

  • 召回 — 当 {target_column} 实际上是 {类别 x} 时,模型正确地将 {召回}% 预测为 {类别 x}。

    查全率可以衡量算法正确预测数据集中所有真阳性 (TP) 的能力如何。真阳性是指预测为阳性,而实际也是数据中阳性值的情况。召回定义如下:Recall = TP/(TP+FN),值范围为 0 到 1。分数越高,反映模型预测数据中真阳性 (TP) 的能力越强。请注意,仅衡量召回率通常是不够的,因为将每个输出预测为真正的正数会产生完美的召回分数。

以下是 3 个以上类别预测的可用指标列表:

  • 准确性 – 正确预测的百分比。

    或者,正确预测的项目数与预测总数的比率。准确性衡量预测类值与实际值的接近程度。准确性指标的值在零 (0) 和壹 (1) 之间变化。值为 1 表示精度完美,0 表示完全不准确。

  • BalancedAccuracy — 测量准确预测与所有预测的比率。

    该比率是在根据阳性 (P) 和阴性 (N) 值总数,对真阳性 (TP) 和真阴性 (TN) 进行标准化后计算得出的。它的定义如下:0.5*((TP/P)+(TN/N)),其值范围为 0 到 1。当在不平衡的数据集中,正面或负面的数量相差很大,例如只有 1% 的电子邮件是垃圾邮件时,平衡的准确度指标可以更好地衡量准确性。

  • F1Macro — F1Macro 分数通过计算精度和召回率来应用 F1 分数,然后取其谐波平均值来计算每个类别的 F1 分数。然后,F1Macro计算个人分数的平均值以获得F1Macro分数。F1Macro 分数在 0 和 1 之间变化。分数为 1 表示具有最佳性能,0 表示性能最差。

  • InferenceLatency — 从发出模型预测请求到从部署模型的实时端点接收模型预测的大致时间。该指标以秒为单位进行测量,仅适用于使用 Ensemblin g 模式构建的模型。

  • LogLoss — 对数损失,也称为交叉熵损失,是一种用于评估概率输出质量的指标,而不是输出本身。对数损失是一个重要指标,指示模型何时有很高的概率做出了错误预测。值范围为 0 到无穷大。值为 0 表示可以完美预测数据的模型。

  • PrecisionMacro — 通过计算每个类别的精度并平均分数以获得多个类别的精度来测量精度。分数范围从零 (0) 到一 (1)。该分数在多个类中取平均值,分数越高反映了模型越能从其识别的所有阳性中预测真阳性 (TP)。

  • RecallMacro — 通过计算每个班级的召回率并平均分数来衡量召回率,从而获得多个班级的召回率。分数范围从 0 到 1。分数越高反映模型预测数据集中真阳性 (TP) 的能力就越好,而真阳性反映的是预测为阳性,而实际也是数据中阳性值的情况。仅衡量查全率通常是不够的,因为只要将每个输出都预测为真阳性,就可以得到完美的查全率分数。

请注意,对于 3 个以上类别的预测,您还会收到平均 F1、准确性、精度和召回率指标。这些指标的分数只是所有类别的平均指标分数。

图像和文字预测指标

以下是图像预测和文本预测的可用指标列表。

  • 准确性 – 正确预测的百分比。

    或者,正确预测的项目数与预测总数的比率。准确性衡量预测类值与实际值的接近程度。准确性指标的值在零 (0) 和壹 (1) 之间变化。值为 1 表示精度完美,0 表示完全不准确。

  • F1 – 将类别平衡考虑在内的一种平衡的准确性度量。

    它是精度和召回率分数的谐波平均值,定义如下:F1 = 2 * (precision * recall) / (precision + recall)。F1 分数介于 0 和 1 之间。分数为 1 表示具有最佳性能,0 表示性能最差。

  • 精度 — 在 {类别 x} 的所有预测时间中,预测在所有时间都是正确的 {precision}%。

    查准率衡量算法预测的真阳性 (TP) 占所识别的全部阳性的比例。它的定义如下:Precision = TP/(TP+FP),其值范围从零 (0) 到一 (1)。当假阳性的成本很高时,查准率是一个重要指标。例如,如果飞机安全系统错误地认为可以安全飞行,则假阳性的成本非常高。假阳性 (FP) 反映的是预测为阳性,而在数据中实际为阴性的情况。

  • 召回 — 当 {target_column} 实际上是 {类别 x} 时,模型正确地将 {召回}% 预测为 {类别 x}。

    查全率可以衡量算法正确预测数据集中所有真阳性 (TP) 的能力如何。真阳性是指预测为阳性,而实际也是数据中阳性值的情况。召回定义如下:Recall = TP/(TP+FN),值范围为 0 到 1。分数越高,反映模型预测数据中真阳性 (TP) 的能力越强。请注意,仅衡量召回率通常是不够的,因为将每个输出预测为真正的正数会产生完美的召回分数。

请注意,对于您预测 3 个或更多类别的图像和文本预测模型,您还会收到平均 F1、准确度、精度和召回率指标。这些指标的分数只是所有类别的指标平均分数。

时间序列预测的指标

以下内容定义了 Amazon SageMaker Canvas 中时间序列预测的高级指标,并向您提供了有关如何使用这些指标的信息。

  • 平均加权分位数损失 (wQL) – 通过对 P10、P50 和 P90 分位数处的准确性取平均值来评估预测。值越低表示模型越准确。

  • 加权绝对百分比误差 (WAPE)-由绝对目标之和归一化的绝对误差之和,用于衡量预测值与观测值的总体偏差。值越低表示模型越准确,WAPE = 0 表示模型没有误差。

  • 均方根误差 (RMSE) - 平均平方误差的平方根。RMSE 越低表示模型越准确,RMSE = 0 表示模型没有误差。

  • 平均绝对误差百分比 (MAPE) - 所有时间点的平均误差百分比(平均预测值与实际值之差的百分比)。值越低表示模型越准确,MAPE = 0 表示模型没有误差。

  • 平均绝对标度误差 (MASE) - 预测的平均绝对误差,通过简单基线预测方法进行标准化。值越低表示模型越准确,MASE < 1 时预计比基线好,而 MASE > 1 时预计比基线差。