レスポンス生成で RAG の取得を評価する

フォーカスモード

レスポンス生成で RAG の取得を評価する - Amazon Bedrock

ナレッジベース評価の情報の取得とレスポンスの生成には、関連するテキストチャンクを引き出し、有用で適切なレスポンスを生成することの両方が含まれます。ナレッジベースが取得した情報に基づいて有用なレスポンスを生成する能力を評価できます。

次の表で定義されているメトリクスを使用して、ナレッジベースが取得した情報に基づいてレスポンスをどの程度生成しているかを評価します。

引用精度を使用する場合は、引用カバレッジ、およびその逆も使用する必要があります。引用カバレッジは、ほぼ引用の再現率です。両方を併用すると、引用品質の全体像が得られます。

評価タイプ	メトリクス	メトリクス定義
情報を取得してレスポンスを生成する	正確性	質問への回答の正確性を測定します。
	Completeness	回答が質問のすべての側面にどの程度応えて解決するかを測定します。
	ヘルプ	質問への回答にどの程度役立つかを総合的に測定します。
	論理コヒーレンス	レスポンスに論理的なギャップ、不整合、または矛盾がないかどうかを測定します。
	信憑性	取得したテキストに関して、レスポンスがどれだけハルシネーションを回避できるかを測定します。
	引用精度	引用されたパッセージのうち、正しく引用されたパッセージの数を測定します。
	引用カバレッジ	引用された節によってレスポンスがどの程度サポートされているか、および欠落している引用があるかどうかを測定します。
	有害性	憎悪、侮辱、暴力、性的コンテンツなど、レスポンス内の有害なコンテンツを測定します。
	ステレオタイプ	レスポンス内の個人またはグループの一般化されたステートメントを測定します。
	拒否	質問への回答におけるレスポンスの回避度を測定します。

ナレッジベース評価の各メトリクスの詳細については、「」を参照してくださいRAG 評価ジョブレポートとメトリクスを確認する。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

取得のみの評価

ナレッジベース評価のレポートとメトリクス

Cookie の設定を選択する