人間によるモデル評価ジョブレポートカード (コンソール) - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

人間によるモデル評価ジョブレポートカード (コンソール)

モデル評価レポートカードには、提供または選択したデータセット内のプロンプトの総数と、それらのプロンプトのうちレスポンスを受け取ったプロンプトの数が表示されます。レスポンスの数が、入力プロンプトの数にジョブで設定したプロンプトあたりのワーカー数 (1、2、3) を掛けた数よりも少ない場合は、Amazon S3 バケットのデータ出力ファイルを確認します。プロンプトが原因でモデルにエラーが発生し、推論が取得されなかった可能性があります。また、1 人以上の作業者がモデル出力レスポンスの評価を拒否した可能性もあります。メトリクスの計算には、ヒューマンワーカーからのレスポンスのみが使用されます。

Amazon Bedrock コンソールでヒューマンワーカーによるモデル評価を開くには、次の手順に従います。

  1. Amazon Bedrock コンソールを開きます。

  2. ナビゲーションペインで、[モデル評価] を選択します。

  3. 次に、[モデル評価] の表でレビューするモデル評価ジョブの名前を見つけます。その後、ジョブを選択します。

モデル評価レポートのレポートカードには、人間による評価作業中に収集されたデータに関するインサイトが記載されます。各レポートカードには、メトリクス、説明、評価方法のほか、特定のメトリクスについて収集されたデータを表すデータの視覚化が表示されます。

以下の各セクションでは、評価 UI で作業チームに表示される 5 つの評価方法の例について説明します。例には、Amazon S3 に結果を保存するために使用されるキーと値のペアも示します。

リッカート尺度、複数のモデル出力の比較

評価者は、モデルからの 2 つのレスポンスのどちらを優先するかを、指示に従って 5 段階のリッカート尺度で示します。最終レポートの結果は、データセット全体における評価者による回答のヒストグラムとして表示されます。

評価者が期待されるレスポンスの評価方法を理解できるように、指示書には必ず 5 段階評価の重要点を定義します。

これが画像です。
JSON 出力

evaluationResults の下の最初の子キーは、選択した評価方法が返される場所を示します。Amazon S3 バケットに保存された出力ファイルでは、各ワーカーの結果が "evaluationResults": "comparisonLikertScale" キーと値のペアに保存されます。

選択ボタン (ラジオボタン)

選択ボタンを使用すると、評価者はある回答と別の回答の適切さを評価することができます。評価者は、指示に従って 2 つの回答のどちらを選択するかをラジオボタンで示します。最終レポートの結果は、各モデルでワーカーがより適切であると回答した割合として表示されます。評価方法については、指示書で明確に説明します。

これが画像です。
JSON 出力

evaluationResults の下の最初の子キーは、選択した評価方法が返される場所を示します。Amazon S3 バケットに保存された出力ファイルでは、各ワーカーの結果が "evaluationResults": "comparisonChoice" キーと値のペアに保存されます。

序数ランク

序数ランクを使用すると、評価者はプロンプトに対するレスポンスの適切さを、指示に従って 1 から順番にランク付けできます。最終レポートの結果は、データセット全体における評価者による回答のランキングとして表示されます。ランク 1 が何を意味するかを、必ず指示書で定義します。このデータタイプは、優先ランクと呼ばれます。

これが画像です。
JSON 出力

evaluationResults の下の最初の子キーは、選択した評価方法が返される場所を示します。Amazon S3 バケットに保存された出力ファイルでは、各ワーカーの結果が "evaluationResults": "comparisonRank" キーと値のペアに保存されます。

高く評価/低く評価

高く評価/低く評価を使用すると、評価者はモデルの各レスポンスを、指示に従って許容できる/許容できないを評価できます。最終レポートの結果は、評価総数に対する各モデルについて高く評価した評価者の割合として表示されます。この評価方法は、1 つまたは複数のモデルを含むモデル評価ジョブに使用できます。この評価方法を 2 つのモデルを含む評価に使用すると、作業チームにはモデルのレスポンスごとに高く評価/低く評価が提示され、最終レポートには各モデルの集計結果が個別に表示されます。指示書には、何が許容できるか (高く評価) を必ず定義します。

これが画像です。
JSON 出力

evaluationResults の下の最初の子キーは、選択した評価方法が返される場所を示します。Amazon S3 バケットに保存された出力ファイルでは、各ワーカーの結果が "evaluationResults": "thumbsUpDown" キーと値のペアに保存されます。

リッカート尺度、単一モデルのレスポンスの評価

指示に基づいて、評価者はモデルのレスポンスをどの程度承認したかを 5 段階のリッカート尺度で示すことができます。最終レポートの結果は、データセット全体における評価者による 5 段階のヒストグラムとして表示されます。この評価方法は、1 つまたは複数のモデルの評価に使用できます。この評価方法を 1 つまたは複数のモデルを含む評価に使用すると、作業チームにはモデルのレスポンスごとに 5 段階のリッカート尺度が提示され、最終レポートには各モデルの集計結果が個別に表示されます。評価者が期待されるレスポンスの評価方法を理解できるように、指示書には必ず 5 段階評価の重要点を定義します。

これが画像です。
JSON 出力

evaluationResults の下の最初の子キーは、選択した評価方法が返される場所を示します。Amazon S3 バケットに保存された出力ファイルでは、各ワーカーの結果が "evaluationResults": "individualLikertScale" キーと値のペアに保存されます。