模型评估

Amazon Bedrock 支持模型评估作业。模型评估工作的结果允许您比较模型输出，然后选择最适合下游生成式 AI 应用程序的模型。

模型评估作业支持大型语言模型 (LLM) 的常见用例，例如文本生成、文本分类、问答和文本摘要。

要评估模型在自动模型评估作业中的性能，您可以使用内置的提示数据集或自己的提示数据集。对于使用工作线程的模型评估作业，您必须使用自己的数据集。

可以选择创建自动模型评估作业或使用人工的模型评估作业。

自动模型评估作业允许您快速评估模型执行任务的能力。您可以提供为特定用例量身定制的自定义提示数据集，也可以使用可用的内置数据集。

使用人工的模型评估作业允许您将人工输入引入模型评估过程。人工可能来自公司员工，也可能来自行业内的一群主题专家。

以下主题介绍了可用的模型评估任务以及可以使用的指标类型。还介绍了可用的内置数据集以及指定自己数据集的方法。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

权限

开始使用