评估模型的性能 - Amazon SageMaker

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

评估模型的性能

Amazon SageMaker Canvas 提供了不同类型模型的概述和评分信息。模型的评分有助于您确定模型进行预测时的准确程度。额外的评分见解有助于您量化实际值和预测值之间的差异。

要查看模型的分析,请执行以下操作:

  1. 打开 SageMaker 画布应用程序。

  2. 在左侧导航窗格中,选择我的模型

  3. 选择您构建的模型。

  4. 在顶部导航窗格中,选择分析选项卡。

  5. 分析选项卡中,您可以查看模型的概述和评分信息。

下面几节介绍如何解释每种模型类型的评分。

评估分类预测模型

概览选项卡显示每列的列影响。列影响是一个百分比分数,表示一列相对于其他列在做出预测时所占的权重。对于影响程度为 25% 的列,Canvas 将该列的预测权重定为 25%,其他列的预测权重定为 75%。

下面的屏幕截图显示了模型的准确性分数,以及优化指标,这是您在构建模型时选择优化的指标。在本例中,优化指标准确性。如果您构建模型的新版本,则可以指定不同的优化指标。

Canvas 的“分析”选项卡上准确性分数和优化指标的屏幕截图。

分类预测模型的评分选项卡可让您直观地查看所有预测。线段从页面左侧延伸,表示模型做出的所有预测。在页面中间,线段汇聚到一条垂直线段上,表示每个预测在单一类别中所占的比例。从预测的类别开始,细分到实际类别。通过跟踪从预测类别到实际类别的每条线段,您可以直观地了解预测的准确性。

下图给出了 3+ 类别预测模型的评分部分示例。

3+ 类别预测模型的评分选项卡的屏幕截图。

您还可以查看高级指标选项卡,了解有关模型性能的更多详细信息,例如高级指标、误差密度图或混淆矩阵。要了解有关 “高级指标” 选项卡的更多信息,请参阅在分析中使用高级指标

评估数值预测模型

概览选项卡显示每列的列影响。列影响是一个百分比分数,表示一列相对于其他列在做出预测时所占的权重。对于影响程度为 25% 的列,Canvas 将该列的预测权重定为 25%,其他列的预测权重定为 75%。

以下屏幕截图显示了概览选项卡上模型的 RMSE 分数,在本例中为优化指标优化指标是您在构建模型时选择优化的指标。如果您构建模型的新版本,则可以指定不同的优化指标。

Canvas 的“分析”选项卡上 RMSE 优化指标的屏幕截图。

数值预测的评分选项卡显示一条线,表示模型相对于用于预测的数据的预测值。数值预测的值通常为 +/- RMSE(均方根误差)值。模型预测的值通常在 RMSE 的范围内。线条周围紫色带的宽度表示 RMSE 范围。预测值通常在该范围内。

下图显示了数值预测的评分部分。

数值预测模型的评分选项卡的屏幕截图。

您还可以查看高级指标选项卡,了解有关模型性能的更多详细信息,例如高级指标、误差密度图或混淆矩阵。要了解有关 “高级指标” 选项卡的更多信息,请参阅在分析中使用高级指标

评估时间序列预测模型

在时间序列预测模型的分析页面上,您可以看到模型指标的概述。您可以将鼠标悬停在每个指标上方以获取更多信息,也可以查看在分析中使用高级指标

列影响部分中,您可以看到每列的分数。列影响是一个百分比分数,表示一列相对于其他列在做出预测时所占的权重。对于影响程度为 25% 的列,Canvas 将该列的预测权重定为 25%,其他列的预测权重定为 75%。

以下屏幕截图显示了模型的时间序列指标分数,以及优化指标,这是您在构建模型时选择优化的指标。在本例中,优化指标RMSE。如果您构建模型的新版本,则可以指定不同的优化指标。

Canvas 的“分析”选项卡上 RMSE 优化指标的屏幕截图。

评估图像预测模型

概览选项卡会显示每个标签的性能,为您提供每个标签预测的图像的总体准确性分数。您可以选择一个标签来查看更具体的详细信息,例如该标签的正确预测错误预测图像。

您可以打开热图开关以查看每张图像的热图。热图显示了在模型进行预测时影响最大的相关领域。有关热图以及如何使用热图改进模型的更多信息,请选择热图开关旁边的更多信息图标。

单标签图像预测模型的评分选项卡显示了模型预测的标签与实际标签的对比。一次最多可选择 10 个标签。您可以通过选择标签下拉菜单并选择或取消选择标签来更改可视化中的标签。

您还可以在模型准确性洞察部分选择查看分数下拉菜单,查看单个标签或标签组的洞察,例如准确性最高或最低的三个标签。

以下屏幕截图显示了单标签图像预测模型的评分信息。

多元文本预测模型的“评分”页面上实际标签与预测标签对比的屏幕截图。

评估文本预测模型

概览选项卡会显示每个标签的性能,为您提供每个标签预测的文本段落的总体准确性分数。您可以选择一个标签来查看更具体的详细信息,例如该标签的正确预测错误预测段落。

多元文本预测模型的评分选项卡显示了模型预测的标签与实际标签的对比。

模型准确性洞察部分,您可以看到最常预测的类别,它告诉您模型最常预测的类别以及这些预测的准确性。如果您的模型在 99% 的情况下都能正确预测出积极标签,那么您就可以相当自信地认为,您的模型在预测文本中的积极情绪方面表现出色。

以下屏幕截图显示了多元文本预测模型的评分信息。

单标签图像预测模型的“评分”页面上实际标签与预测标签对比的屏幕截图。