验证您的自动推理策略测试结果 - Amazon Bedrock

本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。

验证您的自动推理策略测试结果

测试完成后,您将获得一组验证结果,以了解您的自动推理策略的执行情况。

测试包括以下信息:

  • 查询内容:用户可能会问您的 GenAI 应用程序的问题以及可能的答案。如果您手动创建测试,则可以定义这些内容。如果您生成了测试场景,则自动推理会定义这些场景。

  • 置信度阈值:您为测试设置的逻辑验证的最低置信度。该阈值决定了自动推理如何处理将自然语言转换为形式逻辑时的不确定性。达到或超过阈值的内容被视为高可信度发现,可以用明确的结果(有效或无效)进行验证。低于阈值的内容是低可信度发现,标记为 TRANSLATION_AMBILITY,表示系统检测到歧义并选择不提供可能不正确的验证结果。

  • 验证结果

    • 预期结果:运行测试所期望的结果。

    • 实际结果:运行测试的结果。

    • 执行结果:表示测试是否通过。如果预期结果和实际结果一致,则测试通过。如果不是,则测试失败。

  • 调查结果:自动推理策略测试的结果是一组结果。调查结果代表您的测试问题和答案中包含的事实主张。使用它们来帮助您了解测试通过或失败的原因。

    • 类型:翻译可以包括索赔前提的组合。

      • 前提:提供影响索赔评估方式的背景、假设或条件。在 question-and-answer格式中,前提往往是问题本身。答案也可以包含建立约束或条件的前提。例如,在 “哪些数字可以被 2 整除?” 这个问题中 然后回答,“偶数”,前提是 “数字可以被 2 整除”。在 “当交通信号灯变为绿色时,你必须走” 的声明中,前提是 “红绿灯是绿色的”。

      • 索赔:自动推理评估的事实陈述的准确性。在某种 question-and-answer格式中,索赔通常是答案。在一份独立声明中,该说法是所主张的事实。例如,在 “哪些数字可以被 2 整除?” 这个问题中 然后回答 “偶数”,说法是 “偶数”。

    • 结果:表示调查结果的主张的有效性。有关更多信息,请参阅 测试验证结果

    • 置信度:Automated Reasoning 在从自然语言到形式逻辑的翻译中的置信度分数(从 0.0 到 1.0 不等),表示系统对正确解释输入文本的确定程度。分数越高表示翻译的确定性越高。例如,如果翻译的置信度为 “1.0”,则表示可以最大限度地确定自然语言已准确转换为形式逻辑。较低的置信度分数表明系统对您可能想要查看的翻译存在一些不确定性。

    • 分配:您的策略中的变量分配,用于证明调查结果是否有效。翻译中有逻辑语句,显示自然语言是如何转换为形式逻辑的。当存在嵌套逻辑时,这些逻辑可能会更加复杂。例如 hasDogHistoryOfAggression is false

    • 规则:从您的策略中提取的支持调查结果的逻辑。测试可为您提供保单中足够的相关规则,以帮助您了解发现结果。

测试验证结果

以下列表详细说明了自动推理策略测试可能产生的验证结果:

VALID

模型响应中的主张在逻辑上与您的保单规则一致,并且可以在数学上证明是正确的。答案正确地遵循了所有适用的逻辑约束,从前提到结论的推理是合理的。

示例:如果您的保单规定 “服务1年以上的员工可享受育儿假”,而模型回答 “自从您在这里工作了18个月以来,您就有资格享受育儿假”,则这将是有效的,因为18个月超过了1年的要求。

INVALID

模特回复中的说法与您的政策规则相矛盾或违反。根据您的策略的形式逻辑限制,响应中包含的陈述在数学上可以证明是不正确的。

示例:如果您的保单规定 “服务1年以上的员工可享受育儿假”,而模型回答 “即使您只在这里工作了3个月,您也有资格享受育儿假”,则这将无效,因为3个月不符合1年的要求。

SATISFIABLE

这些索赔至少符合对您的保单规则的一种可能解释,但可能不涉及所有相关规则。这意味着回复与您的政策并不矛盾,但可能无法完全解决所有适用的限制。

示例:如果您的保单规定 “员工需要服务1年以上才能享受育儿假,并且必须提交HR-101表格”,并且模型回答 “您有资格享受育儿假,因为您在这里工作了2年,因此这是可以满足的,因为回复正确地满足了服务要求,但没有提及表格要求(没有矛盾)。

IMPOSSIBLE

自动推理无法对索赔做出陈述。如果前提在逻辑上不正确,或者自动推理策略本身存在冲突,则可能会发生这种情况。

示例:如果您的保单包含矛盾的规则,例如 “所有员工都有休假日” 和 “没有员工有休假日”,或者如果测试问题包含不可能的前提,例如 “如果员工工作时间为负数,他们会得到什么福利?” ,结果将是不可能的,因为逻辑基础存在缺陷。

TRANSLATION_AMBIGUOUS

检测到翻译中有歧义之处,这意味着继续进行有效性检查是不合理的。要成功完成翻译,可能需要其他背景或后续问题。

示例:如果你的测试问题是 “他们能请假吗?” 如果不指定 “他们” 指的是谁,或者如果模型响应使用模棱两可的代词(例如 “这取决于他们的情况”)而没有明确的提法,则结果将是 TRANSLATION_AMBILITY,因为系统无法可靠地将模糊的语言翻译成形式逻辑。

TOO_COMPLEX

输入中包含的信息太多,无法在延迟限制内进行自动推理处理。

示例:如果您的测试包含一个非常长的模型响应,其中包含数百份关于员工福利、休假保单、健康保险、退休计划和绩效评估的相互关联的索赔,则结果可能是 TOO_COMPLEX,因为逻辑分析将超过处理时间限制。

NO_TRANSLATIONS

标识部分或全部输入提示未转换为逻辑。如果输入与自动推理策略无关,或者该策略没有用于对相关输入进行建模的变量,则可能会发生这种情况。如果自动推理无法翻译任何东西,你就会得到一个NO_TRANSLATIONS发现。如果验证的某些部分未被翻译,您可能还会看到NO_TRANSLATIONS(以及其他发现)。

示例:如果你的人力资源政策旨在验证员工福利,但你的测试问题却问 “今天的天气怎么样?” 或 “我该怎么煮意大利面?” ,结果将是 NO_TRANSLATIONS,因为内容与您的策略的域名和变量完全无关。