本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
在 Amazon Bedrock 中针对模型评测使用提示数据集
要创建自动模型评估作业,必须指定提示数据集。然后,在推理期间使用您选择评估的模型的提示。Amazon Bedrock 提供了可用于自动模型评估的内置数据集,您也可以自带提示数据集。
通过以下部分,详细了解可用的内置提示数据集和创建自定义提示数据集。
在 Amazon Bedrock 中针对自动模型评测使用内置提示数据集
Amazon Bedrock 提供了多个内置提示数据集,您可以在自动模型评估作业中使用这些数据集。每个内置数据集都基于一个开源数据集。我们对每个开源数据集都进行了随机下采样,仅包含 100 个提示。
创建自动模型评估作业并选择任务类型时,Amazon Bedrock 会为您提供推荐指标列表。Amazon Bedrock 还为每个指标提供了推荐的内置数据集。要了解有关可用任务类型的更多信息,请参阅 Amazon Bedrock 中的模型评测任务类型。
- 开放式语言生成数据集中的偏差 (BOLD)
-
开放式语言生成数据集中的偏见 (BOLD) 是一个评估一般文本生成公平性的数据集,重点关注五个领域:职业、性别、种族、宗教意识形态和政治意识形态。它包含 23,679 条不同的文本生成提示。
- RealToxicityPrompts
-
RealToxicityPrompts 是评估毒性的数据集。它会试图让模型生成带有种族主义、性别歧视或其他倾向的毒性内容。此数据集包含 100,000 条不同的文本生成提示。
- 霸王龙:自然语言与知识库三元组的大规模对齐 () TREX
-
TREX是由从维基百科提取的知识库三元组 (KBTs) 组成的数据集。 KBTs是自然语言处理 (NLP) 和知识表示中使用的一种数据结构。由主语、谓词和宾语组成,其中主语和宾语通过某种关系联系起来。知识库 Triple (KBT) 的一个例子是 “乔治·华盛顿曾任美国总统”。主语是“乔治·华盛顿”,谓语是“曾任”,宾语是“美国总统”。
- WikiText2
-
WikiText2 是一个包含一般文本生成中使用的提示 HuggingFace 的数据集。
- Gigaword
-
Gigaword 数据集由新闻文章标题组成。此数据集用于文本摘要任务。
- BoolQ
-
BoolQ 是一个由是/否问答对组成的数据集。提示包含一小段内容,然后是一个关于该段内容的问题。建议将此数据集用于问答类型的任务。
- 自然问题
-
自然问题是由提交给的真实用户问题组成的数据集 Google 搜索。
- TriviaQA
-
TriviaQA 是一个包含超过 65 万个的数据集。question-answer-evidence-triples此数据集用于问答任务。
- 女性电子商务服装评论
-
女性电子商务服装评论是一个包含客户撰写的服装评论的数据集。此数据集用于文本分类任务。
下表中显示了按任务类型分组的可用数据集列表。要了解有关如何计算自动指标的更多信息,请参阅 在 Amazon Bedrock(控制台)中查看自动模型评测作业的指标。
任务类型 | 指标 | 内置数据集 | 计算指标 |
---|---|---|---|
一般文本生成 | 准确性 | TREX |
现实世界知识 (RWK) 分数 |
稳健性 | 字词错误率 | ||
TREX |
|||
WikiText2 |
|||
毒性 | 毒性 | ||
BOLD |
|||
文本摘要 | 准确性 | Gigaword |
BERTScore |
毒性 | Gigaword |
毒性 | |
稳健性 | Gigaword |
BERTScore 和 deltaBERTScore | |
问答 | 准确性 | BoolQ |
NLP-F1 |
NaturalQuestions |
|||
TriviaQA |
|||
稳健性 | BoolQ |
F1 和 deltaF1 | |
NaturalQuestions |
|||
TriviaQA |
|||
毒性 | BoolQ |
毒性 | |
NaturalQuestions |
|||
TriviaQA |
|||
文本分类 | 准确性 | 女性电子商务服装评论 |
准确性(来自 classification_accuracy_score 的二元准确性) |
稳健性 | 女性电子商务服装评论 |
classification_accuracy_score 和 delta_classification_accuracy_score |
要了解有关创建要求和自定义提示数据集示例的更多信息,请参阅 在 Amazon Bedrock 中针对模型评测使用自定义提示数据集。
在 Amazon Bedrock 中针对模型评测使用自定义提示数据集
您可以在自动模型评估作业中创建自定义提示数据集。自定义提示数据集必须存储在 Amazon S3 中,并使用JSON行格式和.jsonl
文件扩展名。每行都必须是一个有效的JSON对象。每个自动评估作业的数据集中最多可以有 1000 条提示。
对于使用控制台创建的任务,您必须更新 S3 存储桶上的跨源资源共享 (CORS) 配置。要了解有关所需CORS权限的更多信息,请参阅S3 存储桶所需的跨源资源共享 (CORS) 权限。
您必须在自定义数据集中使用以下键值对。
-
prompt
– 必要键,用于指明以下任务的输入:-
模型在一般文本生成中应当响应的提示。
-
模型在问答任务类型中应当回答的问题。
-
模型在文本摘要任务中应当总结的文本。
-
模型在分类任务中应当分类的文本。
-
-
referenceResponse
– 必要键,用于指明在针对以下任务类型评估模型时,所依据的真实响应:-
问答任务中所有提示的答案。
-
所有准确性和稳健性评估的答案。
-
-
category
–(可选)生成每个类别报告的评估分数。
举个例子,准确性既需要提出的问题,也需要一个答案来检查模型的响应。因此,使用键 prompt
和问题中包含的值,使用键 referenceResponse
和答案中包含的值,如下所示。
{ "prompt": "Bobigny is the capital of", "referenceResponse": "Seine-Saint-Denis", "category": "Capitals" }
前面的示例是行输入文件中的一JSON行,该文件将作为推理请求发送到您的模型。将为JSON线条数据集中的每条此类记录调用模型。以下数据输入示例用于问答任务,该任务使用可选的 category
键进行评估。
{"prompt":"Aurillac is the capital of", "category":"Capitals", "referenceResponse":"Cantal"} {"prompt":"Bamiyan city is the capital of", "category":"Capitals", "referenceResponse":"Bamiyan Province"} {"prompt":"Sokhumi is the capital of", "category":"Capitals", "referenceResponse":"Abkhazia"}