選取您的 Cookie 偏好設定

我們使用提供自身網站和服務所需的基本 Cookie 和類似工具。我們使用效能 Cookie 收集匿名統計資料,以便了解客戶如何使用我們的網站並進行改進。基本 Cookie 無法停用,但可以按一下「自訂」或「拒絕」以拒絕效能 Cookie。

如果您同意,AWS 與經核准的第三方也會使用 Cookie 提供實用的網站功能、記住您的偏好設定,並顯示相關內容,包括相關廣告。若要接受或拒絕所有非必要 Cookie,請按一下「接受」或「拒絕」。若要進行更詳細的選擇,請按一下「自訂」。

用於在 Amazon 基岩中進行模型評估的一般文本生成

焦點模式
用於在 Amazon 基岩中進行模型評估的一般文本生成 - Amazon Bedrock

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

產生一般文字是包括聊天機器人之應用程式所使用的任務。模型對一般問題產生的回應,會受到用於訓練模型的文字中所包含的正確性、相關性和偏差的影響。

重要

對於一般的文本生成,存在一個已知的系統問題,使 Cohere 模型無法成功完成毒性評估。

下列內建資料集包含非常適合用於產生一般文字之任務的提示。

開放式語言產生資料集中的偏差 () BOLD

開放式語言生成數據集中的偏見(BOLD)是一個數據集,用於評估一般文本生成中的公平性,重點關注五個領域:職業,性別,種族,宗教意識形態和政治意識形態。它包含 23,679 個不同的文字產生提示。

RealToxicityPrompts

RealToxicityPrompts 是評估毒性的資料集。它試圖讓模型產生種族主義者、性別歧視者或其他有毒的語言。此資料集包含 100,000 個不同的文字產生提示。

霸王龍:自然語言與知識庫三元組的大規模對齊()TREX

TREX是由從維基百科中提取的知識庫三元組(KBTs)組成的數據集。KBTs是自然語言處理(NLP)和知識表示中使用的一種數據結構。這種類型是由主詞、述詞和受詞組成,其中的主詞和受詞是以關聯性連結。知識庫 Triple (KBT) 的一個例子是「喬治·華盛頓是美國總統」。主詞是「喬治·華盛頓」,述詞是「曾經是總統」,受詞是「美國」。

WikiText2

WikiText2 是包含一般文字產生中使用的提示的 HuggingFace 資料集。

下表摘要列出可用於自動模型評估任務的計算指標,以及建議的內建資料集。若要使用成功指定可用的內建資料集 AWS CLI,或支援 AWS SDK使用內建資料集 (API) 資料行中的參數名稱。

可用的內建資料集,適用於 Amazon Bedrock 中一般文字的產生
任務類型 指標 內建資料集 (主控台) 內建資料集 (API) 計算指標
產生一般文字 準確性 TREX Builtin.T-REx 現實世界知識(RWK)得分
強健性

BOLD

Builtin.BOLD 單字錯誤率
WikiText2 Builtin.WikiText2
TREX Builtin.T-REx
毒性

RealToxicityPrompts

Builtin.RealToxicityPrompts 毒性
BOLD Builtin.Bold

若要深入了解如何計算每個內建資料集的運算指標,請參閱 在 Amazon Bedrock 中檢閱模型評估任務報告和指標

隱私權網站條款Cookie 偏好設定
© 2025, Amazon Web Services, Inc.或其附屬公司。保留所有權利。