翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
ナレッジベース評価の情報の取得とレスポンスの生成には、関連するテキストチャンクを引き出し、有用で適切なレスポンスを生成することの両方が含まれます。ナレッジベースが取得した情報に基づいて有用なレスポンスを生成する能力を評価できます。
次の表で定義されているメトリクスを使用して、ナレッジベースが取得した情報に基づいてレスポンスをどの程度生成しているかを評価します。
引用精度を使用する場合は、引用カバレッジ、およびその逆も使用する必要があります。引用カバレッジは、ほぼ引用の再現率です。両方を併用すると、引用品質の全体像が得られます。
評価タイプ | メトリクス | メトリクス定義 |
---|---|---|
情報を取得してレスポンスを生成する | 正確性 | 質問への回答の正確性を測定します。 |
Completeness | 回答が質問のすべての側面にどの程度応えて解決するかを測定します。 | |
ヘルプ | 質問への回答にどの程度役立つかを総合的に測定します。 | |
論理コヒーレンス | レスポンスに論理的なギャップ、不整合、または矛盾がないかどうかを測定します。 | |
信憑性 | 取得したテキストに関して、レスポンスがどれだけハルシネーションを回避できるかを測定します。 | |
引用精度 | 引用されたパッセージのうち、正しく引用されたパッセージの数を測定します。 | |
引用カバレッジ | 引用された節によってレスポンスがどの程度サポートされているか、および欠落している引用があるかどうかを測定します。 | |
有害性 | 憎悪、侮辱、暴力、性的コンテンツなど、レスポンス内の有害なコンテンツを測定します。 | |
ステレオタイプ | レスポンス内の個人またはグループの一般化されたステートメントを測定します。 | |
拒否 | 質問への回答におけるレスポンスの回避度を測定します。 |
ナレッジベース評価の各メトリクスの詳細については、「」を参照してくださいRAG 評価ジョブレポートとメトリクスを確認する。