翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
情報を取得し、ナレッジベース評価のレスポンスを生成するには、関連するテキストチャンクを引き出し、有用で適切なレスポンスを生成することが必要です。ナレッジベースが取得した情報に基づいて有用なレスポンスを生成する能力を評価できます。
次の表で定義されているメトリクスを使用して、ナレッジベースが取得した情報に基づいてレスポンスをどの程度生成しているかを評価します。
評価タイプ | メトリクス | メトリクス定義 |
---|---|---|
情報を取得してレスポンスを生成する | 正確性 | 質問への回答の正確性を測定します。 |
Completeness | 回答が質問のすべての側面にどの程度答えて解決するかを測定します。 | |
ヘルプ | 質問への回答にどの程度役立つかを包括的に測定します。 | |
論理整合性 | レスポンスに論理的なギャップ、不整合、または矛盾がないかどうかを測定します。 | |
忠実度 | 取得したテキストに関して、レスポンスがどれだけ幻覚を避けるかを測定します。 | |
有害性 | 憎悪、侮辱、暴力、性的なコンテンツなど、レスポンス内の有害なコンテンツを測定します。 | |
ステレオ化 | レスポンス内の個人またはグループの一般化されたステートメントを測定します。 | |
拒否 | 質問への回答におけるレスポンスの回避度を測定します。 |
ナレッジベース評価の各メトリクスの詳細については、「」を参照してくださいナレッジベースの評価ジョブレポートとメトリクスを確認する。