Review metrics for an automated model evaluation job in Amazon Bedrock (console)

Amazon Bedrock コンソールを使用すると、自動モデル評価ジョブのレポートに表示されるメトリクスを確認できます。

モデル評価レポートカードには、提供または選択したデータセット内のプロンプトの総数と、それらのプロンプトのうちレスポンスを受け取ったプロンプトの数が表示されます。レスポンスの数が入力プロンプトの数より少ない場合は、Amazon S3 バケットのデータ出力ファイルを確認してください。プロンプトが原因でモデルにエラーが発生し、推論が取得されなかった可能性があります。メトリクスの計算にはモデルからのレスポンスのみが使用されます。

Amazon Bedrock コンソールで自動モデル評価ジョブを確認するには、次の手順に従います。

Amazon Bedrock コンソールを開きます。
ナビゲーションペインで、[モデル評価] を選択します。
次に、[モデル評価] の表でレビューする自動モデル評価ジョブの名前を見つけます。その後、ジョブを選択します。

意味上の堅牢性に関連するすべてのメトリクスにおいて、Amazon Bedrock は、テキストをすべて小文字に変換、キーボード入力ミス、数字の単語への変換、大文字のランダムな変更、空白のランダムな追加/削除、などの方法でプロンプトを混乱させます。

モデル評価レポートを開くと、要約されたメトリクスと [ジョブ構成の概要] を表示できます。

ジョブの作成時に指定された各メトリクスとプロンプトデータセットには、カードとそのメトリクスに指定された各データセットの値が表示されます。この値の計算方法は、タスクタイプと選択したメトリクスによって異なります。

使用可能な各メトリクスを一般的なテキスト生成タスクタイプに適用した場合の計算方法

正解率: このメトリクスの値は、リアルワールドナレッジスコア (RWK スコア) を使用して計算されます。RWK スコアは、現実世界に関する事実に基づく知識をエンコードするモデルの能力を調べます。RWK スコアの高さはモデルの精度を示します。
堅牢性: このメトリクスの値は、意味上の堅牢性を使用して計算されます。これはワードエラー率を使用して計算されます。意味上の堅牢性は、入力に存在する小さな意味上の摂動によって、モデル出力がどの程度変化するかを測定します。このような摂動に対する堅牢性は望ましい特性であるため、意味上の堅牢性の低さは、モデルのパフォーマンスが良好であることを示しています。

ここで検討する摂動の種類には、テキストをすべて小文字に変換する、キーボードでタイプミスする、数字を単語に変換する、大文字にランダムに変更する、空白をランダムに追加/削除する、などが含まれます。データセット内の各プロンプトは、約 5 回変動します。次に、変動した各レスポンスが推論に送られ、堅牢性スコアが自動的に計算されます。
有害性: このメトリクスでは、解毒アルゴリズムの有害性を使用して値が計算されます。有害性の値の低さは、選択したモデルでは有害成分が大量に生成されていないことを示します。解毒アルゴリズムの詳細と有害性の計算方法については、GitHub の「detoxify algorithm」を参照してください。

使用可能な各メトリクスをテキスト要約タスクタイプに適用した場合の計算方法

正解率: このメトリクスの値は BERT スコアを使用して計算されます。BERT スコアは、BERT モデルからの事前トレーニング済みのコンテキスト埋め込みを使用して計算されます。候補文と参考文の単語をコサイン類似度でマッチングします。
堅牢性: このメトリクスでは、計算される値は割合です。(デルタ BERTScore / BERTScore) を 100 倍して計算されます。デルタ BERTScore は、変動したプロンプトとデータセット内の元のプロンプトの BERT スコアの差です。データセット内の各プロンプトは、約 5 回変動します。次に、変動した各レスポンスが推論に送られ、堅牢性スコアが自動的に計算されます。スコアが低いほど、選択したモデルはより堅牢であることを示します。
有害性: このメトリクスでは、解毒アルゴリズムの有害性を使用して値が計算されます。有害性の値の低さは、選択したモデルでは有害成分が大量に生成されていないことを示します。解毒アルゴリズムの詳細と有害性の計算方法については、GitHub の「detoxify algorithm」を参照してください。

質問回答タスクタイプに適用する際の使用可能な各メトリクスの計算方法

正解率: このメトリクスの値は F1 スコアを使用して計算されます。F1 スコアは、精度スコア (すべての予測に対する正しい予測の比率) をリコールスコア (関連する予測の総数に対する正しい予測の比率) で割って計算されます。F1 スコアの範囲は 0～1 で、値が大きいほどパフォーマンスが高いことを示します。
堅牢性: このメトリクスでは、計算される値は割合です。(デルタ F1/F1) を 100 倍して計算されます。Delta F1 は、変動したプロンプトとデータセット内の元のプロンプトの F1 スコアの差です。データセット内の各プロンプトは、約 5 回変動します。次に、変動した各レスポンスが推論に送られ、堅牢性スコアが自動的に計算されます。スコアが低いほど、選択したモデルはより堅牢であることを示します。
有害性: このメトリクスでは、解毒アルゴリズムの有害性を使用して値が計算されます。有害性の値の低さは、選択したモデルでは有害成分が大量に生成されていないことを示します。解毒アルゴリズムの詳細と有害性の計算方法については、GitHub の「detoxify algorithm」を参照してください。

テキスト分類タスクタイプに適用する際の使用可能な各メトリクスの計算方法

正解率: このメトリクスの値は正解率を使用して計算されます。正解率は、予測されたクラスとグラウンドトゥルースラベルを比較したスコアです。正解率が高いほど、モデルは提供されたグラウンドトゥルースラベルに基づいてテキストを正しく分類していることを示します。
堅牢性: このメトリクスでは、計算される値は割合です。これは、(Delta 分類精度スコア/分類精度スコア) を 100 倍して計算されます。Delta 分類精度スコアは、変動したプロンプトと元の入力プロンプトの分類精度スコアの差です。データセット内の各プロンプトは、約 5 回変動します。次に、変動した各レスポンスが推論に送られ、堅牢性スコアが自動的に計算されます。スコアが低いほど、選択したモデルはより堅牢であることを示します。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

モデル評価のレポートとメトリクス

人間のモデル評価ジョブを確認する