モデル評価ジョブでのプロンプトデータセットと利用可能な評価ディメンションの使用

以降のセクションでは、自動モデル評価ジョブとヒューマンベースのモデル評価ジョブを使用する方法の概要を説明します。

モデル評価タスク

モデル評価ジョブの評価タスクとは、プロンプトの情報に基づいてモデルに実行させるタスクです。

モデル評価ジョブごとに 1 つのタスクタイプを選択できます。各タスクタイプの詳細については、以下のセクションを参照してください。各セクションには、自動モデル評価ジョブでのみ使用できる、利用可能な組み込みデータセットとこれに対応するメトリクスのリストも提供されています。

オープンエンド生成

オープンエンドのテキスト生成は、チャットボットへの汎用クエリなど、事前定義済みの構造がないプロンプトに対して自然言語応答を生成する基盤モデルタスクです。オープンエンドテキスト生成の場合、Foundation Model Evaluations (FMEval) は以下のディメンションに沿ってモデルを評価できます。

事実に関する知識 – モデルが事実に関する知識をどの程度適切にエンコードしているかを評価します。FMEval は、独自のカスタムデータセットに対してモデルを評価することも、TREX オープンソースデータセットに基づいて組み込みデータセットを使用することもできます。
セマンティックの頑健性– 入力のセマンティックを保持したわずかな変更の結果としてモデル出力がどの程度変化するかを評価します。FMEval は、キーボードの入力ミス、大文字へのランダムな変更、空白のランダムな追加、または削除の結果としてモデル出力がどのように変化するかを評価します。
プロンプトのステレオタイプ – モデルが応答にバイアスをエンコードする確率を評価します。このようなバイアスには、人種、性別、性的指向、宗教、年齢、国籍、障害、外見、社会経済的地位に関するバイアスなどがあります。FMEval は、独自のカスタムデータセットに対してモデル応答を評価することも、CrowS-Pairs Open Source Challenge データセットに基づいて組み込みデータセットを使用することもできます。
毒性 – 毒性検出モデルを使用してテキストを評価します。FMEval は、モデルに性的言及、失礼なコメント、不合理なコメント、憎悪的なコメント、攻撃的なコメント、冒涜、侮辱、誘惑、アイデンティティへの攻撃、脅威がないか、モデルをチェックします。FMEval は、独自のカスタムデータセットに対してモデルを評価することも、RealToxicityPrompts データセット、RealToxicityPromptsChallenging データセット、BOLD データセットに基づく組み込みデータセットを使用することもできます。

RealToxicityPromptsChallenging は、大規模言語モデル (LLM) の制限をテストするために使用される RealToxicityPrompts のサブセットです。LLM が有害なテキストを生成する可能性の高い領域も特定します。

以下の毒性ディテクターを使用してモデルを評価できます。
- UnitaryAI Detoxify-unbiased – Toxic Comment Classification Challenge と Jigsaw Unintended Bias in Toxicity Classification トレーニングされたマルチラベルテキスト分類子。このモデルは、毒性、重度の毒性、わいせつ、脅威、侮辱、性的に露骨な表現、アイデンティティ攻撃の 7 つのクラスについてスコアを提供します。
- Toxigen-roberta – ToxiGen データセットでファインチューニングされたバイナリ RoBERTa ベースのテキスト分類子。ToxiGen データセットには、マイノリティグループに関する微妙かつ暗黙的な毒性を含む文が含まれています。

テキスト要約

テキスト要約は、ニュース、法的文書、学術論文、コンテンツプレビュー、コンテンツキュレーションの要約作成などのタスクに使用されます。応答の品質に影響を与える可能性のある要素には、曖昧さ、コヒーレンス、バイアス、基礎モデルトレーニングに使用されるテキストの流暢さ、情報の損失、精度、関連性、またはコンテキストの不一致があります。FMEval は、独自のカスタムデータセットに対してモデルを評価することも、Government Report Dataset データセット、Gigaword データセットに基づく組み込みデータセットを使用することもできます。テキスト要約では、FMEval はモデルを以下の点について評価できます。

精度 – 要約と、ゴールドスタンダードとして受け入れられるリファレンス要約との類似性を示す数値スコア。数値スコアが高い場合は、要約が高品質であることを示します。数値スコアが低い場合は、要約の質が低いことを示します。要約の精度を評価するために使用されるメトリクスは、以下のとおりです。
- ROUGE-N – リファレンスとモデルサマリー間の N-gram の重複を計算します。
- Meteor – リフレーズについて考慮しながら、リファレンスとモデルサマリー間の単語の重複を計算します。
- BERTScore – 要約とリファレンスの文埋め込みを計算して比較します。FMEval は、roberta-large-mnli モデルまたは microsoft/deberta-xlarge-mnli モデルを使用して埋め込みを計算します。
毒性 – 毒性ディテクターモデルで計算して生成されたサマリーのスコア。詳細については、上記ドキュメントの「Open-ended generation」タスクの「Toxicity」セクションを参照してください。
セマンティックの頑健性 – 入力のセマンティックを保持したわずかな変更の結果として、モデルのテキスト要約の質がどの程度変化するかの評価。このような変更の例には、キーボードの入力ミス、大文字へのランダムな変更、空白のランダムな追加、削除などがあります。セマンティックの頑健性は、摂動のないテキストサマリーと摂動があるテキストサマリーの精度の絶対差を使用します。精度アルゴリズムは、このセクションの前半で説明したとおり、ROUGE-N メトリクス、Meteor メトリクス、BERTScore メトリクスを使用します。

質問に対する回答

質問への回答は、自動ヘルプデスク応答の生成、情報検索、e ラーニングなどのタスクに使用されます。FMEval は、独自のカスタムデータセットに対してモデルを評価することも、BoolQ データセット、TriviaQA データセット、Natural Questions データセットに基づく組み込みデータセットを使用することもできます。質問への回答では、FMEval はモデルを以下の点について評価できます。

精度 – 生成された応答と、リファレンスで指定された質疑応答ペアを比較する平均スコア。このスコアは、以下の方法で平均化されます。
- 完全一致 – 完全一致には二項スコア 1 が割り当てられ、それ以外の場合は 0 が割り当てられます。
- 準完全一致 – 句読点と文法冠詞 (the、a、and など) を削除した後 (正規化)、一致すると二項スコア 1 が割り当てられます。
- F1 over words - 正規化された応答とリファレンス間の精度と F1 スコア、つまり調和平均。F1 スコアは、精度の 2 倍に再現率を掛けて、精度 (P) と再現率 (R) の合計で割った値、つまり F1 = (2*P*R) / (P + R) です。
  
  上記の計算では、精度は真陽性 (TP) の数を真陽性と偽陽性 (FP) の合計で割った値、つまり P = (TP)/(TP+FP) と定義されています。
  
  再現率は、真陽性の数を真陽性と偽陰性の合計 (FN) で割った値、つまり R = (TP)/(TP+FN) と定義されます。
  
  F1 over words スコアが高いほど、応答の質が高いことを示します。
セマンティックの頑健性 – 入力のセマンティックを保持したわずかな変更の結果として、モデルのテキスト要約の質がどの程度変化するかの評価。このような変更の例には、キーボードの入力ミス、数時から単語への不正確な変換、大文字へのランダムな変更、空白のランダムな追加や削除などがあります。セマンティックの頑健性は、摂動のないテキストサマリーと摂動があるテキストサマリーの精度の絶対差を使用します。精度は、上記のとおり、完全一致、準完全一致、F1 over words を使用して評価されます。
毒性 – スコアは、毒性ディテクターモデルを使用して生成された回答を評価します。詳細については、上記ドキュメントの「Open-ended generation」タスクの「Toxicity」セクションを参照してください。

分類

分類は、テキストを定義済みのカテゴリに分類するために使用されます。テキスト分類を使用するアプリケーションには、コンテンツの推奨、スパム検出、言語識別、ソーシャルメディアでのトレンド分析などがあります。分類でエラーの原因となる問題には、不均衡なデータ、あいまいなデータ、ノイズの多いデータ、ラベル付けのバイアスなどがあります。FMEval は、Women’s ECommerce Clothing Reviews データセットに基づく組み込みデータセットおよび/または独自のプロンプトデータセットに対して、次についてモデルを評価します。

精度 – 予測されるクラスとそのラベルを比較したスコア。精度は、次のメトリクスを使用して評価されます。
- 分類精度 – 予測ラベルが true ラベルと等しい場合は 1、それ以外の場合は 0 の二項スコア。
- 精度 – データセット全体にわたって計算された、すべての陽性に対する真陽性の比率。精度は、偽陽性を減らすことが重要である場合に適切な評価です。各データポイントのスコアは、multiclass_average_strategy パラメータの次の値を使用して集計できます。各パラメータは次の例に一覧表示されています。
- 再現率 – データセット全体にわたって計算された、真陽性と偽陰性の合計に対する真陽性の比率。偽陰性の低減が重要な場合は、再現率が適切な評価となります。各データポイントのスコアは、multiclass_average_strategy パラメータの次の値を使用して集計できます。
  - micro (デフォルト) – すべてのクラスの真陽性の合計を真陽性と偽陰性の合計で割った値。この集計タイプは、すべてのクラスを等しく考慮しながら、モデルの全体的な予測精度を評価します。例えば、この集約では、すべてのクラスに等しく重み付けを行うため、希少疾患などを含めた、あらゆる疾患の患者を適切に分類するモデルの能力を評価できます。
  - macro – 各クラスで計算された再現率値の合計をクラスの数で割った値。この集計タイプは、各クラスを等しく重み付けし、各クラスのモデルの予測精度の評価を提供します。例えば、この集約では、各疾患の有病率や希少性を問わず、すべての疾患を予測するモデルの能力を評価することができます。
  - samples (マルチクラス分類のみ) – すべてのサンプルの真陽性の合計と、すべてのサンプルの真陽性と偽陰性の合計の比率。マルチクラス分類の場合、サンプルは各クラスについて予測される応答のセットで構成されます。この集計タイプは、マルチクラスの問題に対する各サンプルの再現率をきめ細かく評価します。例えば、サンプルによる集計では各サンプルが均等に扱われるため、この集計では、希少疾患の患者に対する適切な診断を予測するモデルの能力を評価し、偽陰性を最小限に抑えることができます。
  - weighted – 単一のクラスの重みに同じクラスの再現率を掛け、すべてのクラスを合計します。この集約タイプは、クラス間でのさまざまな重要度に対応しながら、全体的な再現率の評価を提供します。例えば、この集約では、患者に対する適切な診断を予測するモデルの能力を評価し、生命を脅かす疾患にはより高い重みを付けることができます。
  - binary – pos_label 値で指定されたクラスに対して計算された再現率。この集計タイプは、指定されていないクラスを無視して、単一のクラスに対して全体的な予測精度を提供します。例えば、この集約では、特定の伝染性の高い生命を脅かす疾患について母集団をスクリーニングするモデルの能力を評価できます。
  - none – クラスごとに計算された再現率。クラス固有の再現率は、クラス間でエラーのペナルティが大幅に異なる場合のデータ内のクラスの不均衡に対処するうえで役立ちます。例えば、この集計では、特定の疾患を患っている可能性のあるすべての患者をモデルがどの程度正確に識別できるかを評価できます。
- バランス分類精度 (BCA) – 二項分類の再現率と真陰性率の合計を 2 で割った値。真陰性率は、真陰性の数を真陰性と偽陽性の合計で割った値です。マルチクラス分類の場合、BCA は各クラスの再現率値の合計をクラス数で割った値として計算されます。BCA は、偽陽性と偽陰性の両方を予測するペナルティが高い場合に役立ちます。例えば、BCA は、侵襲的治療を伴う、感染力が非常に強い命に係わる疾患の数をモデルがどの程度正確に予測できるかを評価できます。
セマンティックの頑健性 – 入力のセマンティックを保持したわずかな変更の結果としてモデル出力がどの程度変化するかを評価します。FMEval は、キーボードの入力ミス、大文字へのランダムな変更、空白のランダムな追加、または削除の結果としてモデル出力を評価します。セマンティックの頑健性は、摂動のないテキストサマリーと摂動があるテキストサマリーの精度の絶対差のスコアを算出します。

基盤モデル評価のタイプ

以降のセクションでは、基盤モデル評価での人間によるタイプの評価とアルゴリズムタイプの評価の両方について詳しく説明します。

人間による評価

人間がモデルを評価するには、メトリクスと関連するメトリクスタイプを定義する必要があります。複数のモデルを評価する場合は、比較メカニズムまたは個別の評価メカニズムを使用できます。単一のモデルを評価する場合は、個別の評価メカニズムを使用する必要があります。テキスト関連のタスクには、次の評価メカニズムを適用できます。

(比較) リッカート尺度 - 比較 – 人間の評価者は、指示に従って 5 段階のリッカート尺度で 2 つの応答についての優先順位を示します。最終レポートの結果は、データセット全体の優先順位の強度による評価のヒストグラムとして表示されます。評価者が期待される応答の評価方法を理解できるように、指示には必ず 5 段階尺度の重要点を定義します。
(比較) 選択ボタン – 人間の評価者は、指示に従って、ラジオボタンを使用して別の応答よりも優先する応答を 1 つ指定します。最終レポートの結果は、各モデルでワーカーがより適切であると回答した割合として表示されます。指示では評価方法について明確に説明する必要があります。
(比較) 順序ランク – 人間の評価者が、指示に従って、プロンプトに対してする応答で優先するものを、1 から順にランク付けできます。最終レポートの結果は、データセット全体に対する評価者の表示ランキングのヒストグラムとして表示されます。指示では、ランク 1 が何を意味するかを定義する必要があります。
(個別) 親指を上げる/下げる – 人間の評価者が、指示に従って、モデルからの各応答について、許容できるか、許容できないかを評価します。最終レポートの結果は、各モデルに対して評価者が親指を挙げた評価の合計数の割合として表示されます。この評価方法は、単一または複数のモデル評価に使用できます。この評価方法を 2 つのモデルを含む評価で使用すると、UI は作業チームに各モデル応答について、親指を上げる/下げるのオプションを表示します。最終レポートには、各モデルの集計結果が個別に表示されます。作業チームへの指示では、許容される対応を定義する必要があります。
(個別) リッカート尺度 - 個別 – 人間の評価者が、指示に基づいて、5 段階のリッカート尺度でモデルの応答をどの程度承認するかを示すことができます。最終レポートの結果は、データセット全体に対する評価者からの 5 段階評価のヒストグラムが表示されます。この評価方法は、単一または複数のモデルを含む評価に使用できます。複数のモデルを含む評価でこの評価方法を選択する場合、モデル応答ごとに 5 段階のリッカート尺度が作業チームに表示されます。最終レポートの結果には各モデルの集計が個別に表示されます。最終レポートには、各モデルの集計結果が個別に表示されます。評価者が期待される応答の評価方法を理解できるように、指示では 5 段階評価の重要点を定義する必要があります。

自動評価

自動評価では、組み込みデータセットとアルゴリズムを活用することも、ユースケースに固有のプロンプトの独自のデータセットを使用することもできます。組み込みデータセットはタスクごとに異なり、以下のセクションに一覧表示されています。タスクとそれに関連するメトリクスおよびデータセットの概要については、次の「Foundation model summary evaluation」セクションの表を参照してください。

基盤モデル評価の概要

次の表では、人間による評価と自動評価の両方の評価タスク、メトリクス、組み込みデータセットをすべてまとめています。

タスク	人間による評価	人間によるメトリクス	自動評価	自動メトリクス	自動組み込みデータセット
オープンエンド生成	流暢さ、コヒーレンス、毒性、精度、一貫性、関連性、ユーザー定義	優先率、優先強度、優先ランク、承認率、承認強度	事実に関する知識		TREX
			セマンティックの頑健性		TREX
					BOLD
					WikiText
			プロンプトのステレオタイプ		CrowS-Pairs
			有害性		RealToxicityPrompts
					BOLD
テキスト要約			正解率	ROUGE-N	Government Report Dataset
				BERTScore	Gigaword
					Government Report Dataset
					Gigaword
					Government Report Dataset
					Gigaword
質問に対する回答			正解率	完全一致	BoolQ
				準完全一致	NaturalQuestions
				F1 over words	TriviaQA
			セマンティックの頑健性		BoolQ
					NaturalQuestions
					TriviaQA
			有害性		BoolQ
					NaturalQuestions
					TriviaQA
テキスト分類			正解率	分類の精度	Women's Ecommerce Clothing Reviews
				精度	Women's Ecommerce Clothing Reviews
				リコール	Women's Ecommerce Clothing Reviews
				バランス分類精度	Women's Ecommerce Clothing Reviews
			セマンティックの頑健性		Women's Ecommerce Clothing Reviews

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

はじめに

正解率