评估模型的指标 - Rekognition

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

评估模型的指标

模型训练完毕后,Amazon Rekognition Custom Labels 会返回模型测试的指标,您可以使用这些指标来评估模型的性能。本主题介绍可供您使用的指标,以及如何了解您训练的模型是否运行良好。

Amazon Rekognition Custom Labels 控制台提供以下指标作为训练结果摘要和每个标签的指标:

我们提供的每个指标都是评估机器学习模型性能的常用指标。Amazon Rekognition Custom Labels 会返回整个测试数据集的测试结果指标,以及每个自定义标签的指标。您还可以查看训练后的自定义模型在测试数据集中每张图像上的表现。有关更多信息,请参阅 获取评估指标(控制台)

评估模型性能

在测试期间,Amazon Rekognition Custom Labels 会预测测试图像中是否包含自定义标签。置信度分数是一个量化模型预测确定性的值。

如果自定义标签的置信度分数超过阈值,则模型输出将包含此标签。预测可以按以下方式进行分类:

  • 真正例:Amazon Rekognition Custom Labels 模型可以正确预测测试图像中是否存在自定义标签。也就是说,预测的标签也是该图像的“ground truth”标签。例如,当图像中存在足球时,Amazon Rekognition Custom Labels 会正确返回 soccer ball 标签。

  • 假正例:Amazon Rekognition Custom Labels 模型无法正确预测测试图像中是否存在自定义标签。也就是说,预测的标签不是该图像的“ground truth”标签。例如,Amazon Rekognition Custom Labels 会返回一个 soccer ball 标签,但该图像的 ground truth 中不包含 soccer ball 标签。

  • 假负例:Amazon Rekognition Custom Labels 模型并不能预测图像中存在某个自定义标签,但该图像的“ground truth”包含此标签。例如,Amazon Rekognition Custom Labels 不会为包含足球的图像返回“soccer ball”自定义标签。

  • 真负例:Amazon Rekognition Custom Labels 模型可以正确预测测试图像中不存在某个自定义标签。例如,对于不包含足球的图像,Amazon Rekognition Custom Labels 不会返回 soccer ball 标签。

可通过控制台获取测试数据集中每张图像的真正例、假正例和假负例值。有关更多信息,请参阅 获取评估指标(控制台)

这些预测结果会用于计算每个标签的以下指标,以及整个测试集的汇总。相同的定义适用于模型在边界框级做出的预测,不同之处在于,所有指标都是针对每个测试图像中的每个边界框(预测或 ground truth)计算得出的。

交并比(Intersection over Union,IoU)和物体检测

IoU 用于测量两个物体边界框的重叠部分占其合并区域的百分比。范围为 0(最低重叠)到 1(完全重叠)。在测试过程中,当 ground truth 边界框与预测的边界框的 IoU 不低于 0.5 时,即表示预测的边界框是正确的。

假设阈值

Amazon Rekognition Custom Labels 会自动为您的每个自定义标签计算一个假设阈值 (0-1)。无法为自定义标签设置假设阈值。每个标签的假设阈值都是预测被计为真正例或假正例的阈值。该阈值根据您的测试数据集设置。假设阈值是根据模型训练期间在测试数据集上获得的最佳 F1 分数计算得出的。

可以从模型的训练结果中获取标签的假设阈值。有关更多信息,请参阅 获取评估指标(控制台)

更改假设阈值通常用于提高模型的精度和召回率。有关更多信息,请参阅 改进 Amazon Rekognition Custom Labels 模型。虽然无法设置模型对于标签的假设阈值,但可以通过使用 DetectCustomLabels 分析图像并指定 MinConfidence 输入参数来达到相同的效果。有关更多信息,请参阅 使用经过训练的模型分析图像

精度

Amazon Rekognition Custom Labels 提供每个标签的精度指标,以及整个测试数据集的平均精度指标。

精度是指在单个标签的假设阈值下,正确预测(真正例)数量占所有模型预测(真正例与假正例之和)数量的比例。随着阈值的增加,模型做出的预测可能会减少。但是,总的来说,与较低的阈值相比,更高的阈值下,真正例与假正例数量之比会更高。可能的精度值介于 0-1 之间,值越高表示精度越高。

例如,当模型预测图像中有足球时,预测正确的概率是多少? 假设有一张包含 8 个足球和 5 个石头的图像。如果模型预测有 9 个足球(8 个正确预测,1 个假正例),则此示例的精度为 0.89。但是,如果模型预测图像中有 13 个足球,其中有 8 个正确预测,5 个错误,则产生的精度会更低。

有关更多信息,请参阅精度和召回率

召回率

Amazon Rekognition Custom Labels 提供每个标签的平均召回率指标,以及整个测试数据集的平均召回率指标。

召回率是指正确预测的假设阈值之上的测试集标签所占的比例。该指标可以衡量当测试集图像中确实存在自定义标签时,模型可以正确预测该自定义标签的频率。召回率介于 0-1 之间。值越高表示召回率越高。

例如,如果一张图像包含 8 个足球,其中有多少被正确检测到? 在此示例中,图像中包含 8 个足球和 5 个石头,如果模型检测到 5 个足球,则召回率为 0.62。如果在重新训练后,新模型检测到 9 个足球,包含了图像中存在的所有 8 个足球,则召回率为 1.0。

有关更多信息,请参阅精度和召回率

F1

Amazon Rekognition Custom Labels 使用 F1 分数指标来衡量每个标签的平均模型性能和整个测试数据集的平均模型性能。

模型性能是一个综合衡量指标,它考虑了所有标签的精度和召回率。(例如,F1 分数或平均精度)。模型性能分数是介于 0 和 1 之间的值。该值越高,表明模型在召回率和精度方面的表现越好。具体而言,分类任务的模型性能通常由 F1 分数衡量。该分数是假设阈值下的精度和召回率分数的调和平均数。例如,对于精度为 0.9、召回率为 1.0 的模型,F1 分数为 0.947。

较高的 F1 分数值表示模型在精度和召回率方面都表现良好。如果模型表现不佳,例如精度低至 0.30,召回率高达 1.0,则 F1 分数为 0.46。同样,如果精度较高 (0.95),而召回率较低 (0.20),则 F1 分数为 0.33。这两种情况下,F1 分数都较低,表明模型存在问题。

有关更多信息,请参阅 F1 分数

使用指标

对于经过训练的给定模型,根据应用程序的不同,可以使用 DetectCustomLabelsMinConfidence 输入参数在精度召回率之间进行平衡。MinConfidence 值越高,通常会获得更高的精度(正确预测的足球数量更多),但召回率越低(会漏掉更多实际的足球)。MinConfidence 值越低,召回率越高(正确预测的实际足球更多),但精度越低(这些预测中出错情况的更多)。有关更多信息,请参阅 使用经过训练的模型分析图像

这些指标还会告知您,如果需要,您可以采取哪些步骤来改进模型性能。有关更多信息,请参阅 改进 Amazon Rekognition Custom Labels 模型

注意

DetectCustomLabels 会返回介于 0 到 100 之间的预测值,对应于 0-1 的指标范围。