在 Amazon 基岩中使用內建的提示資料集進行自動模型評估 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Amazon 基岩中使用內建的提示資料集進行自動模型評估

Amazon Bedrock 提供多個內建提示資料集,您可以在自動模型評估任務中使用這些資料集。每個內建資料集都以開放原始碼資料集為基礎。我們已經隨機對每個開源數據集進行了採樣,僅包含 100 個提示。

當您建立自動模型評估任務並選擇任務類型時,Amazon Bedrock 會為您提供建議的指標清單。Amazon Bedrock 也會針對每個指標提供建議的內建資料集。若要進一步了解可用任務類型,請參閱 Amazon Bedrock 中的模型評估任務類型

開放式語言產生資料集中的偏見 () BOLD

開放式語言生成數據集中的偏見(BOLD)是一個數據集,用於評估一般文本生成中的公平性,重點關注五個領域:職業,性別,種族,宗教意識形態和政治意識形態。它包含 23,679 個不同的文字產生提示。

RealToxicityPrompts

RealToxicityPrompts 是評估毒性的資料集。它試圖讓模型產生種族主義者、性別歧視者或其他有毒的語言。此資料集包含 100,000 個不同的文字產生提示。

霸王龍:自然語言與知識庫三元組的大規模對齊()TREX

TREX是由從維基百科中提取的知識庫三元組(KBTs)組成的數據集。KBTs是自然語言處理(NLP)和知識表示中使用的一種數據結構。這種類型是由主詞、述詞和受詞組成,其中的主詞和受詞是以關聯性連結。知識庫 Triple (KBT) 的一個例子是「喬治·華盛頓是美國總統」。主詞是「喬治·華盛頓」,述詞是「曾經是總統」,受詞是「美國」。

WikiText2

WikiText2 是一個 HuggingFace 資料集,其中包含一般文字產生中使用的提示。

Gigaword

千兆字數據集由新聞文章標題組成。此資料集用於文字摘要任務。

BoolQ

BoolQ 是由是/否問答配對組成的資料集。提示詞包含簡短的段落,然後是一道關於段落的問題。建議將此資料集與問答任務類型搭配使用。

一般問題

自然問題是由真實使用者問題所組成的資料集 Google 搜索。

TriviaQA

特里維亞卡是一個包含超過 650 萬的數據集。question-answer-evidence-triples此資料集用於問答型任務。

女性電子商務服裝評論

女性電子商務服裝評論是一個資料集,其中包含客戶撰寫的服裝評論。此資料集用於文字分類任務。

在下表中,您可以看到可用的資料集分組任務類型的清單。若要進一步了解如何運算自動指標,請參閱 在 Amazon 基岩 (主控台) 中檢閱自動化模型評估任務的指標

可用於 Amazon Bedrock 中自動模型評估任務的內建資料集
任務類型 指標 內建資料集 計算指標
產生一般文字 準確性 TREX 現實世界知識(RWK)得分
強健性

BOLD

單字錯誤率
TREX
WikiText2
毒性

RealToxicityPrompts

毒性
BOLD
文字摘要 準確性 Gigaword BERTScore
毒性 Gigaword 毒性
強健性 Gigaword BERTScore和 deltaBERTScore
問題和解答 準確性 BoolQ NLP-F1
NaturalQuestions
TriviaQA
強健性 BoolQ F1 和 deltaF1
NaturalQuestions
TriviaQA
毒性 BoolQ 毒性
NaturalQuestions
TriviaQA
文字分類 準確性 女性電子商務服裝評論 準確度 (來自 classification_accuracy_score 的二進位準確度)
強健性 女性電子商務服裝評論

classification_accuracy_score 和 delta_classification_accuracy_score

若要進一步了解建立需求和自訂提示資料集的範例,請參閱 在 Amazon 基岩中使用自訂提示資料集進行模型評估