LLM を使用する RAG 評価のメトリクスを確認する (コンソール) - Amazon Bedrock

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

LLM を使用する RAG 評価のメトリクスを確認する (コンソール)

Amazon Bedrock コンソールを使用して、RAG 評価ジョブのレポートに表示されるメトリクスを確認できます。

大規模言語モデル (LLM) を使用する RAG 評価では、評価メトリクスを計算して、Amazon Bedrock ナレッジベースまたは外部 RAG ソースが情報を取得し、レスポンスを生成するパフォーマンスがどの程度適切であるかを評価します。

RAG 評価レポートカードには、取得のみ、またはレスポンス生成を含む取得の評価タイプに関連するメトリクスとメトリクスの内訳グラフが表示されます。評価タイプによって関連するメトリクスは異なります。各メトリクスの計算スコアは、プロンプトデータセット内のすべてのユーザークエリで取得されたテキストまたは生成されたレスポンスの平均スコアです。各メトリクスの計算スコアは 0~1 の間の値になります。1 に近いほど、取得したテキストまたはレスポンスにメトリクスの特性が多く表示されます。各メトリクスの内訳グラフはヒストグラムをプロットし、各スコア範囲に含まれるクエリに対して取得されたテキストまたはレスポンスの数をカウントします。

例えば、レスポンスの生成を含む取得を評価する評価ジョブを作成したとします。コンソールレポートカードには、レスポンスの完全性の計算スコアが 0.82 と表示されます。完全性スコアは、生成されたレスポンスがユーザーの質問のあらゆる側面にどの程度対応しているかを測定します。これは、データセット内のすべてのプロンプトにわたる質問へのレスポンスの平均スコアとして計算されます。完全性のヒストグラムグラフにより、ほとんどのレスポンス (最も高いバー) が 0.7~0.8 の完全性スコアの範囲内にあることがわかります。ただし、ナレッジベースは、レスポンスの中で一般化された発言がなされるステレオタイプでも平均 0.94 という高いスコアを出しました。ナレッジベースはほとんどの場合、かなり完全なレスポンスを生成できますが、それらのレスポンスには、個人またはグループに関する一般化された発言が多く含まれます。

LLM を使用する RAG 評価のレポートカード

LLM を使用する RAG 評価ジョブのレポートカードを Amazon Bedrock コンソールで開くには、手順に従います。取得のみと、レスポンス生成を含む取得の評価タイプに関連する各メトリクスについては、以下の情報を参照してください。

  • AWS マネジメントコンソールにサインインし、Amazon Bedrock コンソール (https://console.aws.amazon.com/bedrock/) を開きます。

  • ナビゲーションペインから [評価] を選択し、次に [ナレッジベース評価] を選択します。

  • ナレッジベース評価ジョブの名前を選択します。ナレッジベース評価のメインページであるレポートカードが表示されます。

    注記

    レポートカードを開くには、RAG 評価のステータスが準備中または利用可能である必要があります。

取得のみの評価タイプに関連するメトリクス

関連性の高い情報を取得するナレッジベースの能力の評価に関連する特定のメトリクスがあります。

コンテキスト関連性

このメトリクスは、取得した情報の品質に関連しています。スコアは、データセット内のすべてのプロンプトで取得されたテキストチャンクの平均スコアです。コンテキストの関連性とは、取得したテキストチャンクがコンテキスト的に質問に関連していることを意味します。スコアが高いほど、情報はコンテキスト的な関連性が平均して高くなります。スコアが低いほど、情報はコンテキスト的な関連性が平均して低くなります。

コンテキストカバレッジ (グラウンドトゥルースが必要)

このメトリクスは、取得した情報の品質に関連しています。スコアは、データセット内のすべてのプロンプトで取得されたテキストチャンクの平均スコアです。コンテキストカバレッジとは、取得したテキストチャンクがグラウンドトゥルーステキストで提供されるすべての情報をカバーしていることを意味します。スコアが高いほど、コンテキストカバレッジは平均して高くなります。スコアが低いほど、コンテキストカバレッジは平均して低くなります。

レスポンス生成タイプの評価による取得に関連するメトリクス

取得した情報に基づいて有用で適切なレスポンスを生成するナレッジベースの能力の評価に関連する特定のメトリクスがあります。

正確性

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。正確性とは、質問に正確に答えることを意味します。スコアが高いほど、生成されたレスポンスは平均して正確性が高くなります。スコアが低いほど、生成されたレスポンスは平均して正確性が低くなります。

Completeness

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。完全性とは、質問のあらゆる側面に答えて解決することを意味します。スコアが高いほど、生成されたレスポンスは平均して完全性が高くなります。スコアが低いほど、生成されたレスポンスは平均して完全性が低くなります。

有用性

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。有用性とは、質問に対する全体的に有用なレスポンスを意味します。スコアが高いほど、生成されたレスポンスは平均して有用性が高くなります。スコアが低いほど、生成されたレスポンスは平均して有用性が低くなります。

論理的一貫性

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。論理的一貫性とは、レスポンスに論理的なギャップ、不整合、または矛盾がないことを意味します。スコアが高いほど、生成されたレスポンスの一貫性は平均して高くなります。スコアが低いほど、生成されたレスポンスの一貫性は平均して低くなります。

忠実性

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。忠実性とは、取得したテキストチャンクについてハルシネーションを回避することを意味します。スコアが高いほど、生成されたレスポンスの忠実度は平均して高くなります。スコアが低いほど、生成されたレスポンスの忠実度は平均して低くなります。

引用精度

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。引用精度は、正しく引用されている引用文章の数を示す尺度です。スコアが高いほど、応答の引用が正確である割合が平均して高くなります。スコアが低いほど、レスポンスの引用が正確である割合が平均して低くなります。

引用精度を使用する場合は、引用カバレッジも使用する必要があります。逆も同様です。引用カバレッジは、引用再現率とほぼ同じです。両方を併用すると、引用品質の全体像を把握できます。

引用カバレッジ

このメトリクスは、生成されたレスポンスの品質に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。引用カバレッジは、引用再現率とほぼ同じであり、レスポンスが引用された文章によってどの程度裏付けられているかを示す尺度です。スコアが高いほど、応答は平均してより適切に引用でサポートされます。スコアが低いほど、レスポンスは平均して引用によって裏付けられている度合いが低くなります。

引用カバレッジを使用する場合は、引用精度も使用する必要があります。逆も同様です。両方を併用すると、引用品質の全体像を把握できます。

有害性

このメトリクスは、生成されたレスポンスの適切性に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。有害性とは、憎悪的、侮辱的、または暴力的な発言をすることを意味します。スコアが高いほど、生成されたレスポンスは有害性が平均して高くなります。スコアが低いほど、生成されたレスポンスは有害性が平均して低くなります。

ステレオタイプ

このメトリクスは、生成されたレスポンスの適切性に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。ステレオタイプ化とは、個人または集団について一般化された発言をすることを意味します。スコアが高いほど、生成されたレスポンスはステレオタイプの度合いが平均して高くなります。スコアが低いほど、生成されたレスポンスのステレオタイプの度合いが平均して少なくなります。お世辞と軽蔑の両方のステレオタイプが強く存在すると、スコアが高くなることに注意してください。

拒否

このメトリクスは、生成されたレスポンスの適切性に関連しています。スコアは、データセット内のすべてのプロンプトに対するレスポンスの平均スコアです。拒否とは、質問に対する回避的なレスポンスを意味します。スコアが高いほど、生成されたレスポンスは回避性が平均して高くなります。スコアが低いほど、生成されたレスポンスの回避性が平均して低くなります。