在 Amazon Bedrock 中针对模型评测使用提示数据集 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

在 Amazon Bedrock 中针对模型评测使用提示数据集

要创建自动模型评估作业,必须指定提示数据集。然后,在推理期间使用您选择评估的模型的提示。Amazon Bedrock 提供了可用于自动模型评估的内置数据集,您也可以自带提示数据集。

通过以下部分,详细了解可用的内置提示数据集和创建自定义提示数据集。

在 Amazon Bedrock 中针对自动模型评测使用内置提示数据集

Amazon Bedrock 提供了多个内置提示数据集,您可以在自动模型评估作业中使用这些数据集。每个内置数据集都基于一个开源数据集。我们对每个开源数据集都进行了随机下采样,仅包含 100 个提示。

创建自动模型评估作业并选择任务类型时,Amazon Bedrock 会为您提供推荐指标列表。Amazon Bedrock 还为每个指标提供了推荐的内置数据集。要了解有关可用任务类型的更多信息,请参阅 Amazon Bedrock 中的模型评测任务类型

开放式语言生成数据集中的偏差 (BOLD)

开放式语言生成数据集中的偏见 (BOLD) 是一个评估一般文本生成公平性的数据集,重点关注五个领域:职业、性别、种族、宗教意识形态和政治意识形态。它包含 23,679 条不同的文本生成提示。

RealToxicityPrompts

RealToxicityPrompts 是评估毒性的数据集。它会试图让模型生成带有种族主义、性别歧视或其他倾向的毒性内容。此数据集包含 100,000 条不同的文本生成提示。

霸王龙:自然语言与知识库三元组的大规模对齐 () TREX

TREX是由从维基百科提取的知识库三元组 (KBTs) 组成的数据集。 KBTs是自然语言处理 (NLP) 和知识表示中使用的一种数据结构。由主语、谓词和宾语组成,其中主语和宾语通过某种关系联系起来。知识库 Triple (KBT) 的一个例子是 “乔治·华盛顿曾任美国总统”。主语是“乔治·华盛顿”,谓语是“曾任”,宾语是“美国总统”。

WikiText2

WikiText2 是一个包含一般文本生成中使用的提示 HuggingFace 的数据集。

Gigaword

Gigaword 数据集由新闻文章标题组成。此数据集用于文本摘要任务。

BoolQ

BoolQ 是一个由是/否问答对组成的数据集。提示包含一小段内容,然后是一个关于该段内容的问题。建议将此数据集用于问答类型的任务。

自然问题

自然问题是由提交给的真实用户问题组成的数据集 Google 搜索。

TriviaQA

TriviaQA 是一个包含超过 65 万个的数据集。question-answer-evidence-triples此数据集用于问答任务。

女性电子商务服装评论

女性电子商务服装评论是一个包含客户撰写的服装评论的数据集。此数据集用于文本分类任务。

下表中显示了按任务类型分组的可用数据集列表。要了解有关如何计算自动指标的更多信息,请参阅 在 Amazon Bedrock(控制台)中查看自动模型评测作业的指标

Amazon Bedrock 中可用于自动模型评估作业的内置数据集
任务类型 指标 内置数据集 计算指标
一般文本生成 准确性 TREX 现实世界知识 (RWK) 分数
稳健性

BOLD

字词错误率
TREX
WikiText2
毒性

RealToxicityPrompts

毒性
BOLD
文本摘要 准确性 Gigaword BERTScore
毒性 Gigaword 毒性
稳健性 Gigaword BERTScore 和 deltaBERTScore
问答 准确性 BoolQ NLP-F1
NaturalQuestions
TriviaQA
稳健性 BoolQ F1 和 deltaF1
NaturalQuestions
TriviaQA
毒性 BoolQ 毒性
NaturalQuestions
TriviaQA
文本分类 准确性 女性电子商务服装评论 准确性(来自 classification_accuracy_score 的二元准确性)
稳健性 女性电子商务服装评论

classification_accuracy_score 和 delta_classification_accuracy_score

要了解有关创建要求和自定义提示数据集示例的更多信息,请参阅 在 Amazon Bedrock 中针对模型评测使用自定义提示数据集

在 Amazon Bedrock 中针对模型评测使用自定义提示数据集

您可以在自动模型评估作业中创建自定义提示数据集。自定义提示数据集必须存储在 Amazon S3 中,并使用JSON行格式和.jsonl文件扩展名。每行都必须是一个有效的JSON对象。每个自动评估作业的数据集中最多可以有 1000 条提示。

对于使用控制台创建的任务,您必须更新 S3 存储桶上的跨源资源共享 (CORS) 配置。要了解有关所需CORS权限的更多信息,请参阅S3 存储桶所需的跨源资源共享 (CORS) 权限

您必须在自定义数据集中使用以下键值对。

  • prompt – 必要键,用于指明以下任务的输入:

    • 模型在一般文本生成中应当响应的提示。

    • 模型在问答任务类型中应当回答的问题。

    • 模型在文本摘要任务中应当总结的文本。

    • 模型在分类任务中应当分类的文本。

  • referenceResponse – 必要键,用于指明在针对以下任务类型评估模型时,所依据的真实响应:

    • 问答任务中所有提示的答案。

    • 所有准确性和稳健性评估的答案。

  • category–(可选)生成每个类别报告的评估分数。

举个例子,准确性既需要提出的问题,也需要一个答案来检查模型的响应。因此,使用键 prompt 和问题中包含的值,使用键 referenceResponse 和答案中包含的值,如下所示。

{ "prompt": "Bobigny is the capital of", "referenceResponse": "Seine-Saint-Denis", "category": "Capitals" }

前面的示例是行输入文件中的一JSON行,该文件将作为推理请求发送到您的模型。将为JSON线条数据集中的每条此类记录调用模型。以下数据输入示例用于问答任务,该任务使用可选的 category 键进行评估。

{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"} {"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"} {"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}