モデル評価ジョブでのプロンプトデータセットと使用可能な評価ディメンションの使用 - Amazon SageMaker

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

モデル評価ジョブでのプロンプトデータセットと使用可能な評価ディメンションの使用

以下のセクションでは、自動および人間ベースのモデル評価ジョブを使用する方法の概要を示します。

モデル評価タスク

モデル評価ジョブでは、評価タスクは、プロンプトで見つかった情報に基づいてモデルを実行するタスクです。

モデル評価ジョブごとに 1 つのタスクタイプを選択できます。各タスクタイプの詳細については、以下のセクションを参照してください。各セクションには、使用可能な組み込みデータセットのリストと、自動モデル評価ジョブでのみ使用できる対応するメトリクスも含まれています。

オープンエンド生成

オープンエンドテキスト生成は、チャットボットへの汎用クエリなど、事前定義された構造を持たないプロンプトに対して自然言語レスポンスを生成する基盤モデルタスクです。オープンエンドテキスト生成の場合、Foundation Model Evaluations (FMEval) は次のディメンションに沿ってモデルを評価できます。

  • 実際の知識 – モデルが事実知識をどの程度うまくエンコードしているかを評価します。FMEval は、独自のカスタムデータセットに対してモデルを測定するか、 TREX オープンソースデータセット。

  • セマンティックロバスト性 – 入力のセマンティック保存による小さな変更の結果として、モデル出力がどの程度変化するかを評価します。FMEval は、キーボードの誤字、大文字へのランダムな変更、空白のランダムな追加または削除の結果としてモデル出力がどのように変化するかを測定します。

  • プロンプトステレオタイプ化 — モデルが応答でバイアスをエンコードする可能性を測定します。これらのバイアスには、人種、性別、性的指向、宗教、年齢、国籍、障害、外見、社会経済的地位に関するバイアスが含まれます。FMEval は、独自のカスタムデータセットに対してモデルレスポンスを測定するか、 CrowS-Pairs オープンソースチャレンジデータセット。

  • 毒性 – 毒性検出モデルを使用してテキストを評価します。FMEval は、モデルに性的な言及、失礼、不合理、憎悪的または攻撃的なコメント、冒涜、侮辱、動揺、アイデンティティに対する攻撃、脅威がないかをチェックします。FMEval は、独自のカスタムデータセットに対してモデルを測定するか、 RealToxicityPrompts, RealToxicityPromptsChallenging、および BOLD データセット。

    RealToxicityPromptsChallenging は のサブセットです。RealToxicityPrompts は、大規模な言語モデル () の制限をテストするために使用されますLLM。またLLMs、有害なテキストの生成に対して脆弱な領域も特定します。

    次の毒性ディテクターを使用してモデルを評価できます。

テキスト要約

テキストの要約は、ニュース、法律文書、学術論文、コンテンツプレビュー、コンテンツキュレーションの概要の作成などのタスクに使用されます。応答の質には、曖昧さ、一貫性、バイアス、基盤モデルのトレーニングに使用されるテキストの流暢さ、情報の損失、正確性、関連性、コンテキストの不一致などがあります。FMEval は、独自のカスタムデータセットに対してモデルを評価するか、 Government Report Dataset、および Gigaword データセット。テキストの要約では、 FMEvalはモデルを以下の点について評価できます。

  • 精度 – 要約とゴールドスタンダードとして受け入れられるリファレンスサマリーの類似性を示す数値スコア。数値スコアが高い場合は、概要が高品質であることを示します。数値スコアが低い場合は、概要が悪いことを示します。以下のメトリクスは、要約の精度を評価するために使用されます。

    • ROUGE-N – コンピューティング N-gram は、リファレンスとモデルの概要を重複させます。

    • Meteor – リフレーズを考慮しながら、リファレンスとモデルの概要間の単語の重複を計算します。

    • BERTScore – 要約とリファレンスの文埋め込みを計算して比較します。FMEval は、 roberta-large-mnliまたは microsoft/deberta-xlarge-mnli モデルを使用して埋め込みを計算します。

  • 毒性 – 毒性検出器モデルを使用して計算された生成された概要のスコア。詳細については、前の「オープンエンド生成タスク」の「毒性」セクションを参照してください。

  • セマンティックロバスト性 – 入力のセマンティック保存による小さな変更の結果として、モデルのテキストサマリーの品質がどの程度変化するかの尺度。これらの変更の例としては、誤字、大文字へのランダムな変更、空白のランダムな追加または削除などがあります。セマンティックロバスト性は、摂動されていないテキストサマリーと摂動されているテキストサマリーの精度の絶対差を使用します。精度アルゴリズムは、 ROUGE-N, Meteor、および BERTScore このセクションで前述したように、 メトリクス。

質問に対する回答

質問への回答は、自動ヘルプデスク応答の生成、情報の取得、e ラーニングなどのタスクに使用されます。FMEval は、独自のカスタムデータセットに対してモデルを評価するか、 BoolQ, TriviaQA、および Natural Questions データセット。質問への回答については、 FMEvalはモデルを以下の点について評価できます。

  • 精度 – 生成されたレスポンスと、リファレンスで指定された質問回答ペアを比較する平均スコア。スコアは、次の方法から平均されます。

    • 完全一致 – のバイナリスコア1は完全一致に割り当てられ、0それ以外の場合は が割り当てられます。

    • 準正確な一致 – 句読点と文法記事 (、、 など) が削除された後 (正規化)、 のバイナリスコアが一致に1割り当てられます。

    • 単語に対する F1 – 正規化されたレスポンスとリファレンスの間の F1 スコア、または精度とリコールの調和平均。F1 スコアは、精度を 2 倍に乗算して、精度 (P) とリコール (R) の合計で割った値、または F1 = (2*P*R) / (P + R) に等しくなります。

      前の計算では、精度は真陽性 (TP) の数を真陽性と偽陽性 (FP) の合計で割った値、または P = (TP)/(TP+FP) と定義されます。

      リコールは、真陽性の数を真陽性と偽陰性 (FN) の合計で割った値、または R = (TP)/ (TP+FN) と定義されます。

      F1 over words スコアが高いほど、レスポンスの質が高いことを示します。

  • セマンティックロバスト性 – 入力のセマンティック保存による小さな変更の結果として、モデルのテキストサマリーの品質がどの程度変化するかの尺度。これらの変更の例としては、キーボードの誤字、数字の単語への不正確な変換、大文字へのランダムな変更、空白のランダムな追加または削除などがあります。セマンティックロバスト性は、摂動されていないテキストサマリーと摂動されているテキストサマリーの精度の絶対差を使用します。精度は、前述のように、完全一致、準完全一致、単語に対する F1 を使用して測定されます。

  • 毒性 – スコアは、毒性検出器モデルを使用して生成された回答を評価します。詳細については、前の「オープンエンド生成タスク」の「毒性」セクションを参照してください。

分類

分類は、テキストを事前定義されたカテゴリに分類するために使用されます。テキスト分類を使用するアプリケーションには、コンテンツの推奨、スパム検出、言語識別、ソーシャルメディアでのトレンド分析などがあります。不均衡、あいまい、ノイズの多いデータ、ラベル付けのバイアスは、分類にエラーを引き起こす可能性のある問題です。FMEval は、 に基づいて組み込みデータセットに対してモデルを評価します。 Women’s ECommerce Clothing Reviews および/または以下の独自のプロンプトデータセットに対して。

  • 精度 – 予測クラスをラベルと比較するスコア。精度は、次のメトリクスを使用して測定されます。

    • 分類精度 – 予測ラベルが true ラベルと等しい1場合の のバイナリスコア。それ以外の0場合は です。

    • 精度 – データセット全体で計算された、すべての正に対する真陽性の比率。誤検出を減らすことが重要な場合、精度は適切な手段です。各データポイントのスコアは、 multiclass_average_strategyパラメータの次の値を使用して集計できます。各パラメータを次の例に示します。

    • リコール – データセット全体で計算された真陽性と偽陰性の合計に対する真陽性の比率。偽陰性を減らすことが重要な場合、リコールは適切な手段です。各データポイントのスコアは、 multiclass_average_strategyパラメータの次の値を使用して集計できます。

      • micro (デフォルト) – すべてのクラスの真陽性と偽陰性の合計で割った真陽性の合計。この集計タイプは、すべてのクラスを等しく考慮しながら、モデルの全体的な予測精度を測定します。例えば、この集約は、すべてのクラスに等しい重みを与えるため、まれな疾患を含む疾患を持つ患者を正しく分類するモデルの能力を評価することができます。

      • macro – クラスごとに計算されたリコール値の合計をクラス数で割った値。この集計タイプは、各クラスのモデルの予測精度を、各クラスと同等の重みで測定します。例えば、この集約は、各状態の有病率や希少性に関係なく、すべての疾患を予測するモデルの能力を評価することができます。

      • samples (多クラス分類のみ) – すべてのサンプルに対する真陽性の合計と、すべてのサンプルの真陽性と偽陰性の合計の比率。多クラス分類の場合、サンプルは各クラスについて予測される一連のレスポンスで構成されます。この集約タイプは、多クラス問題に対する各サンプルのリコールを詳細に測定します。例えば、サンプルによる集計では各サンプルが均等に扱われるため、この集計では、偽陰性を最小限に抑えながら、まれな疾患を持つ患者の正しい診断を予測するモデルの能力を評価できます。

      • weighted – 1 つのクラスの重みに同じクラスのリコールを掛け、すべてのクラスを合計します。この集約タイプは、クラス間でさまざまな重要度に対応しながら、全体的なリコールの尺度を提供します。例えば、この集約は、患者の正しい診断を予測し、命を脅かす病気により大きな重みを与えるモデルの能力を評価することができます。

      • binary – 値 で指定されたクラスに対して計算されたリコールpos_label。この集計タイプは、指定されていないクラスを無視し、単一のクラスに対して全体的な予測精度を提供します。例えば、この集約により、特定の伝染性の高い生命を脅かす疾患について母集団をスクリーニングするモデルの能力を評価することができます。

      • none – クラスごとに計算されたリコール。クラス固有のリコールは、エラーに対するペナルティがクラス間で大幅に異なる場合に、データのクラス不均衡に対処するのに役立ちます。例えば、この集約により、特定の疾患を持つ可能性のあるすべての患者をモデルがどの程度適切に特定できるかを評価できます。

    • バランス分類精度 (BCA) – 二項分類2のリコールと真陰性率の合計を で割った値。真陰性率は、真陰性の数を真陰性と偽陽性の合計で割った値です。多クラス分類の場合、 BCA は各クラスのリコール値の合計をクラス数で割って計算されます。BCA は、誤検出と誤検出の両方を予測するペナルティが高い場合に役立ちます。例えば、 BCAは、侵入的治療により、モデルが伝染性の高い多数の致命的疾患をどの程度予測できるかを評価できます。

  • セマンティックロバスト性 – 入力のセマンティック保存による小さな変更の結果として、モデル出力がどの程度変化するかを評価します。FMEval は、キーボードの誤字、大文字へのランダムな変更、空白のランダムな追加または削除の結果としてモデル出力を測定します。セマンティック堅牢性は、混乱していないテキストサマリーと混乱しているテキストサマリーの精度の絶対差をスコアします。

基盤モデル評価のタイプ

以下のセクションでは、基盤モデルの評価の人間タイプとアルゴリズムタイプの両方について詳しく説明します。

人間による評価

人間がモデルを評価するには、メトリクスと関連するメトリクスタイプを定義する必要があります。複数のモデルを評価する場合は、比較または個別の評価メカニズムを使用できます。1 つのモデルを評価する場合は、個別の評価メカニズムを使用する必要があります。テキスト関連のタスクには、次の評価メカニズムを適用できます。

  • (比較) リッカートスケール - 比較 – 人間の評価者は、指示に従って 5 ポイントのリッカートスケールで 2 つのレスポンス間の好みを示します。最終レポートでは、データセット全体に対する好みの強度によって、結果が評価のヒストグラムとして表示されます。評価者が期待どおりに回答を評価する方法を理解できるように、手順で 5 ポイントスケールの重要なポイントを定義します。

  • (比較) 選択ボタン – 人間の評価者は、指示に従って、ラジオボタンを使用して別の応答よりも優先する応答を 1 つ指定できます。最終レポートの結果は、各モデルでワーカーがより適切であると回答した割合として表示されます。評価方法を手順で明確に説明します。

  • (比較) 順序ランク – 人間の評価者がプロンプトに対して希望する応答を 1 から順にランク付けし、指示に従ってランク付けできるようにします。最終レポートでは、データセット全体の評価者からのランキングのヒストグラムとして結果が表示されます。手順1で のランクが意味するものを定義していることを確認してください。

  • (個人) サムのアップ/ダウン – 人間の評価者は、指示に従ってモデルからの各レスポンスを許容可能または許容不可として評価できます。最終レポートでは、各モデルのサムアップ評価を受け取った評価者による評価の合計数の割合が結果に表示されます。この評価方法を使用して、1 つ以上のモデルを評価できます。これを 2 つのモデルを含む評価で使用すると、UI はモデルレスポンスごとにサムの上下オプションを作業チームに提供します。最終レポートには、各モデルの集計結果が個別に表示されます。作業チームへの指示で許容される対応を定義します。

  • (個別) リッカートスケール - 個別 – 人間の評価者は、指示に基づいて、5 ポイントのリッカートスケールでモデルレスポンスをどの程度強く承認するかを示すことができます。最終レポートでは、データセット全体の評価者からの 5 ポイント評価のヒストグラムが結果に表示されます。この評価方法は、1 つ以上のモデルを含む評価に使用できます。複数のモデルを含む評価でこの評価方法を選択すると、モデルレスポンスごとに 5 ポイントのリッカートスケールが作業チームに表示されます。最終レポートには、各モデルの集計結果が個別に表示されます。評価者が期待どおりに回答を評価する方法を理解できるように、手順で 5 ポイントスケールの重要なポイントを定義します。

自動評価

自動評価では、組み込みデータセットとアルゴリズムを活用したり、ユースケースに固有の独自のプロンプトデータセットを取得したりできます。組み込みデータセットはタスクごとに異なり、以下のセクションに一覧表示されます。タスクとそれに関連するメトリクスとデータセットの概要については、次の Foundation モデルの概要評価セクションの表を参照してください。

Foundation モデル評価の概要

次の表は、人間と自動の両方の評価タスク、メトリクス、組み込みデータセットをまとめたものです。

タスク 人間による評価 ヒューマンメトリクス 自動評価 自動メトリクス 自動組み込みデータセット

オープンエンド生成

流暢性、一貫性、毒性、精度、一貫性、関連性、ユーザー定義

優先率、優先強度、優先ランク、承認率、承認強度

実際の知識

TREX

セマンティック堅牢性

TREX

BOLD

WikiText

プロンプトのステレオタイプ化

CrowS-Pairs

有害性

RealToxicityPrompts

BOLD

テキスト要約

正解率

ROUGE-N

Government Report Dataset

BERTScore

Gigaword

Government Report Dataset

Gigaword

Government Report Dataset

Gigaword

質問に対する回答

正解率

完全一致

BoolQ

準完全一致

NaturalQuestions

単語での F1

TriviaQA

セマンティック堅牢性

BoolQ

NaturalQuestions

TriviaQA

有害性

BoolQ

NaturalQuestions

TriviaQA

テキスト分類

正解率

分類の精度

Women's Ecommerce Clothing Reviews

‏適合率

Women's Ecommerce Clothing Reviews

リコール

Women's Ecommerce Clothing Reviews

バランスの取れた分類精度

Women's Ecommerce Clothing Reviews

セマンティック堅牢性

Women's Ecommerce Clothing Reviews