模型评估 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

模型评估

Amazon Bedrock 支持模型评估作业。模型评估工作的结果允许您比较模型输出,然后选择最适合下游生成式 AI 应用程序的模型。

模型评估作业支持大型语言模型 (LLM) 的常见用例,例如文本生成、文本分类、问答和文本摘要。

要评估模型在自动模型评估作业中的性能,您可以使用内置的提示数据集或自己的提示数据集。对于使用工作线程的模型评估作业,您必须使用自己的数据集。

可以选择创建自动模型评估作业或使用人工的模型评估作业。

概述:自动模型评估作业

自动模型评估作业允许您快速评估模型执行任务的能力。您可以提供为特定用例量身定制的自定义提示数据集,也可以使用可用的内置数据集。

概述:使用人工的模型评估作业

使用人工的模型评估作业允许您将人工输入引入模型评估过程。人工可能来自公司员工,也可能来自行业内的一群主题专家。

以下主题介绍了可用的模型评估任务以及可以使用的指标类型。还介绍了可用的内置数据集以及指定自己数据集的方法。