翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
Amazon Bedrock の自動モデル評価に組み込みプロンプトデータセットを使用する
Amazon Bedrock には、自動モデル評価ジョブで使用できる複数の組み込みプロンプトデータセットが用意されています。各組み込みデータセットは、オープンソースのデータセットに基づいています。各オープンソースデータセットをランダムにダウンサンプリングして、100 個のプロンプトのみを含めました。
自動モデル評価ジョブを作成して [タスクタイプ] を選択すると、Amazon Bedrock は推奨メトリクスのリストを提供します。Amazon Bedrock は、各メトリクスについて、推奨される組み込みデータセットも提供します。使用可能なタスクタイプの詳細については、「Amazon Bedrock のモデル評価タスクタイプ」を参照してください。
- オープンエンド言語生成データセットのバイアス (BOLD)
-
オープンエンド言語生成データセットのバイアス (BOLD) は、一般的なテキスト生成の公平性を評価するデータセットで、職業、性別、人種、宗教的イデオロギー、政治的イデオロギーの 5 つのドメインに焦点を当てています。このデータセットには、23,679 のテキスト生成プロンプトが含まれています。
- RealToxicityPrompts
-
RealToxicityPrompts は、有害性を評価するデータセットです。このデータセットを使用すると、モデルは人種差別的、性差別的、またはその他の有害な言葉を生成します。このデータセットには、100,000 のテキスト生成プロンプトが含まれています。
- T-Rex : ナレッジベーストリプルを使用した自然言語の大規模な調整 (TREX)
-
TREX は、Wikipedia から抽出されたナレッジベーストリプル (KBTs) で構成されるデータセットです。KBTs は、自然言語処理 (NLP) と知識表現で使用されるデータ構造の一種です。主語、述語、目的語で構成され、主語と目的語はリレーションによってリンクされています。ナレッジベーストリプル (KBT) の例は、「ジョージ・ワシントンが米国の大統領だった」です。主語は「ジョージ・ワシントンは」、述語は「大統領だった」、目的語は「アメリカ合衆国の」です。
- WikiText2
-
WikiText2 は、一般的なテキスト生成で使用されるプロンプトを含む HuggingFace データセットです。
- Gigaword
-
Gigaword データセットは、ニュース記事の見出しで構成されています。このデータセットはテキスト要約タスクに使用されます。
- BoolQ
-
BoolQ は、はい/いいえで回答できる質問と回答のペアで構成されるデータセットです。プロンプトには短い文章と、その文章に関する質問が続きます。このデータセットは、質問回答タスクタイプでの使用をお勧めします。
- Natural Questions
-
自然質問は、 に送信された実際のユーザー質問で構成されるデータセットです。Google 検索。
- TriviaQA
-
TriviaQA は 650K を超える を含むデータセットですquestion-answer-evidence-triples。このデータセットは質問回答タスクに使用されます。
- Women's E-Commerce Clothing Reviews
-
Women's E-Commerce Clothing Reviews は、顧客が書いた服のレビューを含むデータセットです。このデータセットはテキスト分類タスクに使用されます。
以下の表に、使用可能なデータセットをタスクタイプ別にグループ化したものを示します。自動メトリクスの計算方法の詳細については、「Amazon Bedrock で自動モデル評価ジョブのメトリクスを確認する (コンソール)」を参照してください。
タスクタイプ | メトリクス | 組み込みデータセット | 計算済みのメトリクス |
---|---|---|---|
一般的なテキスト生成 | 正解率 | TREX |
現実世界の知識 (RWK) スコア |
堅牢性 | 単語エラー率 | ||
TREX |
|||
WikiText2 |
|||
有害性 | 有害性 | ||
BOLD |
|||
テキスト要約 | 正解率 | Gigaword |
BERTScore |
有害性 | Gigaword |
有害性 | |
堅牢性 | Gigaword |
BERTScore および deltaBERTScore | |
質問と回答 | 正解率 | BoolQ |
NLP-F1 |
NaturalQuestions |
|||
TriviaQA |
|||
堅牢性 | BoolQ |
F1 および deltaF1 | |
NaturalQuestions |
|||
TriviaQA |
|||
有害性 | BoolQ |
有害性 | |
NaturalQuestions |
|||
TriviaQA |
|||
テキスト分類 | 正解率 | Women's Ecommerce Clothing Reviews |
正解率 (classification_accuracy_score による正解率) |
堅牢性 | Women's Ecommerce Clothing Reviews |
classification_accuracy_score および delta_classification_accuracy_score |
カスタムプロンプトデータセットの作成要件と例の詳細については、「Amazon Bedrock でのモデル評価にカスタムプロンプトデータセットを使用する」を参照してください。