Amazon Bedrock の自動モデル評価に組み込みプロンプトデータセットを使用する - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Amazon Bedrock の自動モデル評価に組み込みプロンプトデータセットを使用する

Amazon Bedrock には、自動モデル評価ジョブで使用できる複数の組み込みプロンプトデータセットが用意されています。各組み込みデータセットは、オープンソースのデータセットに基づいています。各オープンソースデータセットをランダムにダウンサンプリングして、100 個のプロンプトのみを含めました。

自動モデル評価ジョブを作成して [タスクタイプ] を選択すると、Amazon Bedrock は推奨メトリクスのリストを提供します。Amazon Bedrock は、各メトリクスについて、推奨される組み込みデータセットも提供します。使用可能なタスクタイプの詳細については、「Amazon Bedrock のモデル評価タスクタイプ」を参照してください。

オープンエンド言語生成データセットのバイアス (BOLD)

オープンエンド言語生成データセットのバイアス (BOLD) は、一般的なテキスト生成の公平性を評価するデータセットで、職業、性別、人種、宗教的イデオロギー、政治的イデオロギーの 5 つのドメインに焦点を当てています。このデータセットには、23,679 のテキスト生成プロンプトが含まれています。

RealToxicityPrompts

RealToxicityPrompts は、有害性を評価するデータセットです。このデータセットを使用すると、モデルは人種差別的、性差別的、またはその他の有害な言葉を生成します。このデータセットには、100,000 のテキスト生成プロンプトが含まれています。

T-Rex : ナレッジベーストリプルを使用した自然言語の大規模な調整 (TREX)

TREX は、Wikipedia から抽出されたナレッジベーストリプル (KBTs) で構成されるデータセットです。KBTs は、自然言語処理 (NLP) と知識表現で使用されるデータ構造の一種です。主語、述語、目的語で構成され、主語と目的語はリレーションによってリンクされています。ナレッジベーストリプル (KBT) の例は、「ジョージ・ワシントンが米国の大統領だった」です。主語は「ジョージ・ワシントンは」、述語は「大統領だった」、目的語は「アメリカ合衆国の」です。

WikiText2

WikiText2 は、一般的なテキスト生成で使用されるプロンプトを含む HuggingFace データセットです。

Gigaword

Gigaword データセットは、ニュース記事の見出しで構成されています。このデータセットはテキスト要約タスクに使用されます。

BoolQ

BoolQ は、はい/いいえで回答できる質問と回答のペアで構成されるデータセットです。プロンプトには短い文章と、その文章に関する質問が続きます。このデータセットは、質問回答タスクタイプでの使用をお勧めします。

Natural Questions

自然質問は、 に送信された実際のユーザー質問で構成されるデータセットです。Google 検索。

TriviaQA

TriviaQA は 650K を超える を含むデータセットですquestion-answer-evidence-triples。このデータセットは質問回答タスクに使用されます。

Women's E-Commerce Clothing Reviews

Women's E-Commerce Clothing Reviews は、顧客が書いた服のレビューを含むデータセットです。このデータセットはテキスト分類タスクに使用されます。

以下の表に、使用可能なデータセットをタスクタイプ別にグループ化したものを示します。自動メトリクスの計算方法の詳細については、「Amazon Bedrock で自動モデル評価ジョブのメトリクスを確認する (コンソール)」を参照してください。

Amazon Bedrock の自動モデル評価ジョブで使用可能な組み込みデータセット
タスクタイプ メトリクス 組み込みデータセット 計算済みのメトリクス
一般的なテキスト生成 正解率 TREX 現実世界の知識 (RWK) スコア
堅牢性

BOLD

単語エラー率
TREX
WikiText2
有害性

RealToxicityPrompts

有害性
BOLD
テキスト要約 正解率 Gigaword BERTScore
有害性 Gigaword 有害性
堅牢性 Gigaword BERTScore および deltaBERTScore
質問と回答 正解率 BoolQ NLP-F1
NaturalQuestions
TriviaQA
堅牢性 BoolQ F1 および deltaF1
NaturalQuestions
TriviaQA
有害性 BoolQ 有害性
NaturalQuestions
TriviaQA
テキスト分類 正解率 Women's Ecommerce Clothing Reviews 正解率 (classification_accuracy_score による正解率)
堅牢性 Women's Ecommerce Clothing Reviews

classification_accuracy_score および delta_classification_accuracy_score

カスタムプロンプトデータセットの作成要件と例の詳細については、「Amazon Bedrock でのモデル評価にカスタムプロンプトデータセットを使用する」を参照してください。