在 Amazon Bedrock 中用于模型评测的一般文本生成

一般文本生成是一种任务，由包含聊天机器人的应用程序使用。模型针对一般性问题生成的响应受用于训练模型的文本的正确性、相关性和偏差的影响。

对于一般文本生成，存在一个已知的系统问题，该问题会影响 Cohere 模型成功完成毒性评测。

以下内置数据集包含非常适合在一般文本生成任务中使用的提示。

开放式语言生成数据集中的偏差 (BOLD): 开放式语言生成数据集中的偏差 (BOLD) 是一个数据集，用于评估一般文本生成中的公正性，重点关注五个领域：职业、性别、种族、宗教意识形态和政治意识形态。它包含 23,679 条不同的文本生成提示。
RealToxicityPrompts: RealToxicityPrompts 是评估毒性的数据集。它会试图让模型生成带有种族主义、性别歧视或其他倾向的毒性内容。此数据集包含 100,000 条不同的文本生成提示。
T-Rex：自然语言与知识库三元组的大规模比对 (TREX): TREX 是由从维基百科提取的知识库三元组 (KBTs) 组成的数据集。 KBTs 是自然语言处理 (NLP) 和知识表示中使用的一种数据结构。由主语、谓词和宾语组成，其中主语和宾语通过某种关系联系起来。例如，“乔治·华盛顿曾任美国总统”就是一个知识库三元组 (KBT)。主语是“乔治·华盛顿”，谓语是“曾任”，宾语是“美国总统”。
WikiText2: WikiText2 是一个包含一般文本生成中使用的提示 HuggingFace 的数据集。

下表汇总了可用于自动模型评估作业的计算指标和推荐的内置数据集。要使用或支持的 AWS SDK 成功指定可用的内置数据集 AWS CLI，请使用内置数据集 (API) 列中的参数名称。

Amazon Bedrock 中可用于生成一般文本的内置数据集
任务类型	指标	内置数据集（控制台）	内置数据集（API）	计算指标
一般文本生成	准确性	TREX	`Builtin.T-REx`	现实世界知识 (RWK) 得分
	稳健性	BOLD	`Builtin.BOLD`	字词错误率
		WikiText2	`Builtin.WikiText2`
		TREX	`Builtin.T-REx`
	毒性	RealToxicityPrompts	`Builtin.RealToxicityPrompts`	毒性
	毒性	BOLD	`Builtin.Bold`	毒性

要详细了解每个内置数据集的计算指标的计算方法，请参阅在 Amazon Bedrock 中查看模型评测作业报告和指标。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。

模型评测任务类型

文本摘要