Valide los resultados de las pruebas de su política de razonamiento automatizado

Cuando finaliza una prueba, se le proporciona un conjunto de resultados de validación para que comprenda el rendimiento de su política de razonamiento automatizado.

Una prueba incluye la siguiente información:

Consulta y contenido: una pregunta que un usuario podría hacerle a su aplicación GenAI y una posible respuesta. Estas se definen si se crea la prueba manualmente. El razonamiento automatizado los define si generaste escenarios de prueba.
Umbral de confianza: el nivel de confianza mínimo para la validación lógica que estableces para la prueba. Este umbral determina la forma en que el razonamiento automatizado gestiona la incertidumbre al traducir el lenguaje natural a la lógica formal. El contenido que alcanza o supera el umbral se considera un hallazgo de alta confianza que puede validarse con un resultado definitivo (VÁLIDO o NO VÁLIDO). El contenido que se encuentra por debajo del umbral es un resultado de baja confianza que se marca como TRANSLATION_AMBIGUO, lo que indica que el sistema detectó una ambigüedad y decidió no proporcionar un resultado de validación potencialmente incorrecto.
Resultados de la validación:
- Resultado esperado: el resultado que espera al ejecutar la prueba.
- Resultado real: el resultado de la ejecución de la prueba.
- Resultado de la ejecución: indica si se ha superado la prueba. Si los resultados esperados y reales coinciden, la prueba ha sido aprobada. Si no, la prueba falló.
Hallazgos: El resultado de una prueba de política de razonamiento automatizado es un conjunto de hallazgos. Los hallazgos representan las afirmaciones fácticas contenidas en la pregunta y la respuesta de la prueba. Utilícelas para entender por qué se aprobó o no se aprobó una prueba.
- Tipo: las traducciones pueden incluir una combinación de afirmaciones y premisas.
  - Premisas: proporciona el contexto, las suposiciones o las condiciones que afectan a la forma en que debe evaluarse una reclamación. En los question-and-answer formatos, la premisa suele ser la pregunta en sí misma. Las respuestas también pueden contener premisas que establezcan restricciones o condiciones. Por ejemplo, en la pregunta «¿Qué números son divisibles entre 2?» y responde: «Números pares», la premisa es «números divisibles entre 2». En la frase «Cuando el semáforo se ponga en verde, hay que ir», la premisa es «el semáforo está en verde».
  - Afirmaciones: afirmaciones fácticas cuya precisión evalúa Automated Reasoning. En un question-and-answer formato, la afirmación suele ser la respuesta. En una declaración independiente, la afirmación es el hecho que se afirma. Por ejemplo, en la pregunta «¿Qué números son divisibles entre 2?» y responde: «Números pares», la afirmación es «números pares».
- Resultado: indica la validez de las afirmaciones de un hallazgo. Para obtener más información, consulte Prueba los resultados de la validación.
- Confianza: la puntuación de confianza (que va de 0,0 a 1,0) que el razonamiento automático tiene en la traducción del lenguaje natural a la lógica formal, lo que representa la seguridad del sistema de interpretar correctamente el texto introducido. Las puntuaciones más altas indican una mayor certeza en la traducción. Por ejemplo, si una traducción tiene una confianza de «1,0», eso indica la máxima certeza de que el lenguaje natural se ha convertido con precisión a la lógica formal. Los puntajes de confianza más bajos sugieren que el sistema tiene cierta incertidumbre acerca de la traducción que quizás desee revisar.
- Asignaciones: asignaciones variables de su política que demuestran que la conclusión es válida o no. Las traducciones tienen enunciados lógicos que muestran cómo se convirtió el lenguaje natural a la lógica formal. Estos pueden ser más complejos cuando hay una lógica anidada. Por ejemplo, hasDogHistoryOfAggression is false.
- Reglas: la lógica extraída de su política que respalda la conclusión. Una prueba te proporciona suficientes reglas relevantes de tu póliza para ayudarte a entender el resultado de la búsqueda.

Prueba los resultados de la validación

La siguiente lista detalla los posibles resultados de validación de una prueba de política de razonamiento automatizado:

VALID

Las afirmaciones de la respuesta del modelo son coherentes desde el punto de vista lógico con las normas de su póliza y se puede demostrar matemáticamente que son correctas. La respuesta sigue correctamente todas las restricciones lógicas aplicables y el razonamiento, desde las premisas hasta las conclusiones, es sólido.

Ejemplo: si su política indica que «los empleados con más de 1 año de servicio obtienen una licencia por paternidad» y el modelo responde: «Tiene derecho a la licencia parental porque ha trabajado aquí durante 18 meses», esto sería VÁLIDO porque 18 meses superan el requisito de 1 año.

INVALID

Las afirmaciones de la respuesta del modelo contradicen o infringen las normas de tu póliza. La respuesta contiene afirmaciones que pueden demostrarse matemáticamente como incorrectas en función de las restricciones lógicas formales de su política.

Ejemplo: si tu política indica que «los empleados con más de un año de servicio tienen licencia por paternidad» y el modelo responde: «Tienes derecho a la licencia parental aunque solo lleves trabajando aquí tres meses», esto no sería válido porque tres meses no cumplen con el requisito de un año.

SATISFIABLE

Las solicitudes concuerdan con al menos una posible interpretación de las normas de tu póliza, pero es posible que no aborden todas las normas pertinentes. Esto significa que la respuesta no contradice tu política, pero es posible que no aborde por completo todas las restricciones aplicables.

Ejemplo: si tu política establece que «los empleados necesitan más de un año de servicio para obtener el permiso parental Y deben presentar el formulario HR-101" y el modelo responde: «Tienes derecho a la licencia parental porque has trabajado aquí durante 2 años», sería SATISFACTORIO porque la respuesta aborda correctamente el requisito de servicio, pero no menciona el requisito del formulario (sin contradecirlo).

IMPOSSIBLE

El razonamiento automatizado no puede hacer una declaración sobre las afirmaciones. Esto puede suceder si las premisas son lógicamente incorrectas o si existe un conflicto dentro de la propia política de razonamiento automatizado.

Ejemplo: si tu política contiene reglas contradictorias, como «Todos los empleados tienen días de vacaciones» y «Ningún empleado tiene días de vacaciones», o si la pregunta del examen contiene premisas imposibles, como «¿Qué beneficios reciben los empleados si tienen un horario de trabajo negativo?» , el resultado sería imposible porque el fundamento lógico es erróneo.

TRANSLATION_AMBIGUOUS

Si se detectó una ambigüedad en la traducción, no sería correcto continuar con la comprobación de la validez. Es posible que se necesiten preguntas de contexto adicionales o de seguimiento para que la traducción tenga éxito.

Ejemplo: si la pregunta del examen es «¿Pueden ausentarse?» sin especificar a quién se refieren «ellos» o si la respuesta modelo utiliza pronombres ambiguos como «Depende de su situación» sin referentes claros, el resultado sería TRANSLATION_AMBIGUO porque el sistema no puede traducir de forma fiable el lenguaje impreciso a una lógica formal.

TOO_COMPLEX

La entrada contiene demasiada información como para que Automated Reasoning la procese dentro de sus límites de latencia.

Ejemplo: si la prueba incluye un modelo de respuesta extremadamente extenso con cientos de solicitudes interconectadas sobre las prestaciones de los empleados, las pólizas de vacaciones, el seguro médico, los planes de jubilación y las evaluaciones del desempeño en una sola respuesta, el resultado podría ser TOO_COMPLEX, ya que el análisis lógico superaría los límites de tiempo de procesamiento.

NO_TRANSLATIONS

Identifica que una parte o la totalidad de la solicitud de entrada no se tradujo a la lógica. Esto puede suceder si la entrada no es relevante para la política de razonamiento automatizado o si la política no tiene variables para modelar la entrada relevante. Si el razonamiento automatizado no puede traducir nada, se obtiene un único NO_TRANSLATIONS resultado. También es posible que veas un NO_TRANSLATIONS (junto con otros resultados) si alguna parte de la validación no está traducida.

Ejemplo: si tu política de recursos humanos está diseñada para validar las prestaciones de los empleados, pero la pregunta del examen es «¿Qué tiempo hace hoy?» o «¿Cómo cocino la pasta?» , el resultado sería NO_TRANSLATIONS porque el contenido no tiene ninguna relación con el dominio y las variables de la política.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Pruebe una política de razonamiento automatizado

Abordar las pruebas de política de razonamiento automatizado fallidas