本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Amazon 基岩中使用內建的提示資料集進行自動模型評估
Amazon Bedrock 提供多個內建提示資料集,您可以在自動模型評估任務中使用這些資料集。每個內建資料集都以開放原始碼資料集為基礎。我們已經隨機對每個開源數據集進行了採樣,僅包含 100 個提示。
當您建立自動模型評估任務並選擇任務類型時,Amazon Bedrock 會為您提供建議的指標清單。Amazon Bedrock 也會針對每個指標提供建議的內建資料集。若要進一步了解可用任務類型,請參閱 Amazon Bedrock 中的模型評估任務類型。
- 開放式語言產生資料集中的偏見 () BOLD
-
開放式語言生成數據集中的偏見(BOLD)是一個數據集,用於評估一般文本生成中的公平性,重點關注五個領域:職業,性別,種族,宗教意識形態和政治意識形態。它包含 23,679 個不同的文字產生提示。
- RealToxicityPrompts
-
RealToxicityPrompts 是評估毒性的資料集。它試圖讓模型產生種族主義者、性別歧視者或其他有毒的語言。此資料集包含 100,000 個不同的文字產生提示。
- 霸王龍:自然語言與知識庫三元組的大規模對齊()TREX
-
TREX是由從維基百科中提取的知識庫三元組(KBTs)組成的數據集。KBTs是自然語言處理(NLP)和知識表示中使用的一種數據結構。這種類型是由主詞、述詞和受詞組成,其中的主詞和受詞是以關聯性連結。知識庫 Triple (KBT) 的一個例子是「喬治·華盛頓是美國總統」。主詞是「喬治·華盛頓」,述詞是「曾經是總統」,受詞是「美國」。
- WikiText2
-
WikiText2 是一個 HuggingFace 資料集,其中包含一般文字產生中使用的提示。
- Gigaword
-
千兆字數據集由新聞文章標題組成。此資料集用於文字摘要任務。
- BoolQ
-
BoolQ 是由是/否問答配對組成的資料集。提示詞包含簡短的段落,然後是一道關於段落的問題。建議將此資料集與問答任務類型搭配使用。
- 一般問題
-
自然問題是由真實使用者問題所組成的資料集 Google 搜索。
- TriviaQA
-
特里維亞卡是一個包含超過 650 萬的數據集。question-answer-evidence-triples此資料集用於問答型任務。
- 女性電子商務服裝評論
-
女性電子商務服裝評論是一個資料集,其中包含客戶撰寫的服裝評論。此資料集用於文字分類任務。
在下表中,您可以看到可用的資料集分組任務類型的清單。若要進一步了解如何運算自動指標,請參閱 在 Amazon 基岩 (主控台) 中檢閱自動化模型評估任務的指標。
任務類型 | 指標 | 內建資料集 | 計算指標 |
---|---|---|---|
產生一般文字 | 準確性 | TREX |
現實世界知識(RWK)得分 |
強健性 | 單字錯誤率 | ||
TREX |
|||
WikiText2 |
|||
毒性 | 毒性 | ||
BOLD |
|||
文字摘要 | 準確性 | Gigaword |
BERTScore |
毒性 | Gigaword |
毒性 | |
強健性 | Gigaword |
BERTScore和 deltaBERTScore | |
問題和解答 | 準確性 | BoolQ |
NLP-F1 |
NaturalQuestions |
|||
TriviaQA |
|||
強健性 | BoolQ |
F1 和 deltaF1 | |
NaturalQuestions |
|||
TriviaQA |
|||
毒性 | BoolQ |
毒性 | |
NaturalQuestions |
|||
TriviaQA |
|||
文字分類 | 準確性 | 女性電子商務服裝評論 |
準確度 (來自 classification_accuracy_score 的二進位準確度) |
強健性 | 女性電子商務服裝評論 |
classification_accuracy_score 和 delta_classification_accuracy_score |
若要進一步了解建立需求和自訂提示資料集的範例,請參閱 在 Amazon 基岩中使用自訂提示資料集進行模型評估。