翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。
自動推論ポリシーのテスト結果を検証する
テストが終了すると、Automated Reasoning ポリシーのパフォーマンスを理解するための一連の検証結果が提供されます。
テストには以下の情報が含まれます。
-
クエリとコンテンツ: ユーザーが GenAI アプリケーションに尋ねる可能性のある質問と、考えられるレスポンス。テストを手動で作成する場合は、これらを定義します。自動推論は、テストシナリオを生成した場合にこれらを定義します。
-
信頼度しきい値: テスト用に設定したロジック検証の最小信頼レベル。このしきい値は、自然言語を正式なロジックに変換する際の不確実性を自動推論がどのように処理するかを決定します。しきい値以上を満たすコンテンツは、最終的な結果 (VALID または INVALID) で検証できる信頼性の高い検出結果と見なされます。しきい値を下回るコンテンツは、TRANSLATION_AMBIGUOUS とマークされた信頼性の低い検出結果であり、システムがあいまいさを検出し、誤った検証結果を提供しないことを選択していることを示します。
-
検証結果:
-
期待される結果: テストの実行から期待される結果。
-
実際の結果: テストを実行した結果。
-
実行結果: テストに合格したかどうかを示します。期待される結果と実際の結果が一致すれば、テストは合格です。そうでない場合、テストは失敗しました。
-
-
結果: 自動推論ポリシーテストからの出力は、一連の結果です。結果は、テストの質問と回答に含まれる事実のクレームを表します。これらは、テストが合格または不合格になった理由を理解するのに役立ちます。
-
タイプ: 翻訳には、クレームと施設の組み合わせを含めることができます。
-
前提: クレームの評価方法に影響するコンテキスト、前提条件、または条件を提供します。question-and-answerの形式では、多くの場合、前提は質問自体です。回答には、制約または条件を確立するオンプレミスを含めることもできます。例えば、質問では、「2 で割り切れる数値は何ですか?」と入力します。「偶数」と答えると、前提は「2 で割り切れる数値」です。ステートメントで、「トラフィックライトが緑色に変わったら移動する必要があります」は、「トラフィックライトが緑色」です。
-
クレーム: 自動推論が精度を評価する事実ステートメント。question-and-answerの形式では、クレームは通常回答です。スタンドアロンステートメントでは、クレームはアサートされている事実です。例えば、質問では、「2 で割り切れる数値は何ですか?」と入力します。「偶数」と答えると、クレームは「偶数」です。
-
-
結果: 結果のクレームの有効性を示します。詳細については、「テスト検証結果」を参照してください。
-
信頼度: 自動推論が自然言語から形式ロジックへの翻訳で持つ信頼スコア (0.0~1.0 の範囲)。システムが入力テキストを正しく解釈することについてどの程度確実であるかを表します。スコアが高いほど、翻訳の確実性が高いことを示します。例えば、翻訳の信頼度が「1.0」の場合、自然言語が正式なロジックに正確に変換されたという最大の確実性を示します。信頼スコアが低いほど、システムがレビューする翻訳についてある程度の不確実性があることを示します。
-
割り当て: 結果が有効かどうかを証明するポリシーからの変数割り当て。翻訳には、自然言語がどのように形式ロジックに変換されたかを示すロジックステートメントがあります。ネストされたロジックがある場合、これらはより複雑になる可能性があります。例えば、
hasDogHistoryOfAggression is false
。 -
ルール: 結果をサポートするポリシーから抽出されたロジック。テストでは、結果を理解するのに役立つポリシーからの十分な関連ルールが提供されます。
-
テスト検証結果
次のリストは、Automated Reasoning ポリシーテストから得られる可能性のある検証結果の詳細を示しています。
VALID
-
モデルのレスポンスのクレームは、ポリシールールと論理的に一致しており、数学的に正しいと証明できます。レスポンスは、該当するすべての論理的な制約に正しく従っており、オンプレミスから結論への推論は適切です。
例: ポリシーに「1 年以上勤務している従業員が親休暇を取得する」と記載されており、モデルが「ここで 18 か月間勤務してから親休暇を取得する資格がある」と回答した場合、18 か月が 1 年の要件を超えているため、これは VALID になります。
INVALID
-
モデルのレスポンスのクレームは、ポリシールールと矛盾するか、ポリシールールに違反します。レスポンスには、ポリシーの正式なロジック制約に基づいて、数学的に正しくないと証明できるステートメントが含まれています。
例: ポリシーに「1 年以上勤務している従業員が親休暇を取得する」と記載されており、モデルが「ここで 3 か月間しか働いていない場合でも親休暇の対象となる」と回答した場合、3 か月は 1 年間の要件を満たしていないため、これは無効になります。
SATISFIABLE
-
クレームは、ポリシールールの考えられる解釈と少なくとも 1 つ一貫していますが、関連するすべてのルールに対処できるとは限りません。つまり、レスポンスがポリシーと矛盾するわけではありませんが、適用されるすべての制約に完全に対処できるとは限りません。
例: ポリシーに「従業員が親休暇に 1 年以上の勤務が必要で、フォーム HR-101 を提出する必要がある」と記載されていて、モデルが「ここで 2 年間勤務しているので親休暇の資格がある」と答えた場合、レスポンスはサービス要件に正しく対応しているが、フォーム要件には言及していない (矛盾しない) ため、これは満足できるでしょう。
IMPOSSIBLE
-
自動推論では、クレームに関するステートメントを作成できません。これは、施設が論理的に正しくない場合、または自動推論ポリシー自体内に競合がある場合に発生する可能性があります。
例: ポリシーに「すべての従業員が休暇を取得する」や「休暇を取得する従業員がない」などの矛盾するルールが含まれている場合、またはテストの質問に「従業員が負の時間で働くとどのようなメリットが得られるか」などの不可能な施設が含まれている場合、論理的な基盤に欠陥があるため、結果は不可能になります。
TRANSLATION_AMBIGUOUS
-
翻訳であいまいさが検出されました。つまり、有効性チェックを続けるのは不合理です。翻訳を成功させるには、追加のコンテキストやフォローアップの質問が必要になる場合があります。
例: テストの質問が「休暇を取ることはできますか?」の場合 誰が「それら」を参照するかを指定しない場合、またはモデルレスポンスが「状況によって異なります」などのあいまいな代名詞を明確な参照なしで使用している場合、システムはあいまいな言語を確実に正式なロジックに変換できないため、結果は TRANSLATION_AMBIGUOUS になります。
TOO_COMPLEX
-
入力に含まれる情報が多すぎるため、Automated Reasoning はレイテンシー制限内で処理できません。
例: テストに非常に長いモデルレスポンスが含まれており、従業員のメリット、休暇ポリシー、健康保険、リタイアプラン、パフォーマンスレビューに関する数百のクレームが 1 回のレスポンスで相互接続されている場合、論理分析が処理時間の制限を超えるため、結果は TOO_COMPLEX になる可能性があります。
NO_TRANSLATIONS
-
入力プロンプトの一部またはすべてがロジックに変換されなかったことを示します。これは、入力が自動推論ポリシーに関連しない場合、または関連する入力をモデル化する変数がポリシーにない場合に発生する可能性があります。自動推論が何も翻訳できない場合、1 つの
NO_TRANSLATIONS
結果が得られます。検証の一部が翻訳されていない場合は、NO_TRANSLATIONS
(他の検出結果とともに) が表示されることもあります。例: 人事ポリシーが従業員の利益を検証するように設計されているが、テストの質問で「今日の天気はどうですか?」と質問された場合 または「パスタのクック方法」の場合、コンテンツはポリシーのドメインや変数と完全に無関係であるため、結果は NO_TRANSLATIONS になります。