本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
您可以使用 Amazon Bedrock 控制台查看报告中显示的人工评测数据。
在模型评测报告卡中,可以看到您提供或选择的数据集中的提示总数,以及其中有多少提示收到了响应。如果响应数少于输入提示数乘以您在作业中配置的每个提示的工作人员数(1、2 或 3),请务必检查 Amazon S3 存储桶中的数据输出文件。提示可能导致模型出错,未检索到任何推理。此外,一个或多个工作人员可能拒绝评估模型输出响应。只有来自工作人员的响应才会用于指标计算。
通过以下过程,在 Amazon Bedrock 控制台上打开使用人工的模型评估。
-
打开 Amazon Bedrock 控制台。
-
在导航窗格中,选择模型评估。
-
接下来,在模型评估表中找到您要查看的模型评估作业的名称。然后选中它。
模型评估报告使用报告卡提供有关人工评估作业期间所收集数据的见解。每张报告卡都将显示指标、描述和评级方法,以及一个数据可视化结果,用于呈现针对给定指标收集的数据。
以下几个部分分别介绍了工作团队在评估 UI 中看到的 5 种可能的评级方法示例。这些示例还显示了使用哪个键值对将结果保存到 Amazon S3 中。
李克特量表,比较多个模型输出
评测人员按照您的说明,通过 5 级李克特量表,表明他们对模型的两种响应的偏好。最终报告中的结果将以直方图的形式,显示评估人员对整个数据集的偏好强度评级。
请务必在说明中定义 5 级量表的要点,以便评估人员知道如何根据您的期望对响应进行评级。

JSON 输出
evaluationResults
下的第一个子键是返回所选评级方法的位置。在保存到 Amazon S3 存储桶的输出文件中,每个工作人员的结果都将保存到 "evaluationResults": "comparisonLikertScale"
键值对中。
选择按钮(单选按钮)
选择按钮允许评估人员指出他们首选某个响应,而不是另一个响应。评估人员按照您的说明,使用单选按钮表明他们在两个响应之间的偏好。最终报告中的结果将以百分比的形式,显示工作人员为每种模型首选的响应。请务必在说明中清楚地阐明您的评估方法。

JSON 输出
evaluationResults
下的第一个子键是返回所选评级方法的位置。在保存到 Amazon S3 存储桶的输出文件中,每个工作人员的结果都将保存到 "evaluationResults": "comparisonChoice"
键值对中。
序数排名
序数排名允许评估人员根据您的说明,按从 1 开始的顺序对提示的首选响应进行排名。最终报告中的结果将以直方图的形式,显示评估人员对整个数据集的排名。请务必在说明中定义排名 1 的含义。这种数据类型叫作偏好排名。

JSON 输出
evaluationResults
下的第一个子键是返回所选评级方法的位置。在保存到 Amazon S3 存储桶的输出文件中,每个工作人员的结果都将保存到 "evaluationResults": "comparisonRank"
键值对中。
大拇指向上/向下
up/down allows a human evaluator to rate each response from a model as acceptable/unacceptable according to your instructions. The results in the final report will be shown as a percentage of the total number of ratings by evaluators that received a thumbs up rating for each model. You may use this rating method for a model evaluation job that contains one or more models. If you use this in an evaluation that contains two models, a thumbs up/down将向您的工作团队展示每个模型响应的拇指,最终报告将单独显示每个模型的汇总结果。请务必在说明中定义什么是可接受的(即什么是大拇指向上的评级)。

JSON 输出
evaluationResults
下的第一个子键是返回所选评级方法的位置。在保存到 Amazon S3 存储桶的输出文件中,每个工作人员的结果都将保存到 "evaluationResults": "thumbsUpDown"
键值对中。
李克特量表,评估单个模型响应
允许评估人员按照您对 5 级李克特量表的说明,表明他们对模型响应的认可程度。最终报告中的结果将以直方图的形式,显示评估人员对整个数据集的 5 级评定结果。可以在包含一个或多个模型的评估中使用此评级方法。如果您在包含多个模型的评估中使用这种评级方法,系统会针对每个模型响应,向工作团队显示一个 5 级李克特量表,而最终报告将分别显示每个模型的汇总结果。请务必在说明中定义 5 级量表的要点,以便评估人员知道如何根据您的期望对响应进行评级。

JSON 输出
evaluationResults
下的第一个子键是返回所选评级方法的位置。在保存到 Amazon S3 存储桶的输出文件中,每个工作人员的结果都将保存到 "evaluationResults": "individualLikertScale"
键值对中。