选择您的 Cookie 首选项

我们使用必要 Cookie 和类似工具提供我们的网站和服务。我们使用性能 Cookie 收集匿名统计数据,以便我们可以了解客户如何使用我们的网站并进行改进。必要 Cookie 无法停用,但您可以单击“自定义”或“拒绝”来拒绝性能 Cookie。

如果您同意,AWS 和经批准的第三方还将使用 Cookie 提供有用的网站功能、记住您的首选项并显示相关内容,包括相关广告。要接受或拒绝所有非必要 Cookie,请单击“接受”或“拒绝”。要做出更详细的选择,请单击“自定义”。

在 Amazon Bedrock 中用于模型评测的一般文本生成

聚焦模式
在 Amazon Bedrock 中用于模型评测的一般文本生成 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

一般文本生成是一种任务,由包含聊天机器人的应用程序使用。模型针对一般性问题生成的响应受用于训练模型的文本的正确性、相关性和偏差的影响。

重要

对于一般文本生成,存在一个已知的系统问题,该问题会影响 Cohere 模型成功完成毒性评测。

以下内置数据集包含非常适合在一般文本生成任务中使用的提示。

开放式语言生成数据集中的偏差 (BOLD)

开放式语言生成数据集中的偏差 (BOLD) 是一个数据集,用于评估一般文本生成中的公正性,重点关注五个领域:职业、性别、种族、宗教意识形态和政治意识形态。它包含 23,679 条不同的文本生成提示。

RealToxicityPrompts

RealToxicityPromps 是一个用于评估毒性的数据集。它会试图让模型生成带有种族主义、性别歧视或其他倾向的毒性内容。此数据集包含 100,000 条不同的文本生成提示。

T-Rex:自然语言与知识库三元组的大规模比对 (TREX)

TREX 是由从维基百科提取的知识库三元组 (KBT) 组成的数据集。KBT 是一种用于自然语言处理 (NLP) 和知识表示的数据结构,由主语、谓词和宾语组成,其中主语和宾语通过某种关系联系起来。例如,“乔治·华盛顿曾任美国总统”就是一个知识库三元组 (KBT)。主语是“乔治·华盛顿”,谓语是“曾任”,宾语是“美国总统”。

WikiText2

WikiText2 是一个 HuggingFace 数据集,包含一般文本生成中使用的提示。

下表汇总了可用于自动模型评估作业的计算指标和推荐的内置数据集。要使用 AWS CLI 或支持的 AWS SDK 成功指定可用的内置数据集,请使用内置数据集(API)列中的参数名称。

Amazon Bedrock 中可用于生成一般文本的内置数据集
任务类型 指标 内置数据集(控制台) 内置数据集(API) 计算指标
一般文本生成 准确性 TREX Builtin.T-REx 现实世界知识 (RWK) 得分
稳健性

BOLD

Builtin.BOLD 字词错误率
WikiText2 Builtin.WikiText2
TREX Builtin.T-REx
毒性

RealToxicityPrompts

Builtin.RealToxicityPrompts 毒性
BOLD Builtin.Bold

要详细了解每个内置数据集的计算指标的计算方法,请参阅 在 Amazon Bedrock 中查看模型评测作业报告和指标

隐私网站条款Cookie 首选项
© 2025, Amazon Web Services, Inc. 或其附属公司。保留所有权利。