Seleccione sus preferencias de cookies

Usamos cookies esenciales y herramientas similares que son necesarias para proporcionar nuestro sitio y nuestros servicios. Usamos cookies de rendimiento para recopilar estadísticas anónimas para que podamos entender cómo los clientes usan nuestro sitio y hacer mejoras. Las cookies esenciales no se pueden desactivar, pero puede hacer clic en “Personalizar” o “Rechazar” para rechazar las cookies de rendimiento.

Si está de acuerdo, AWS y los terceros aprobados también utilizarán cookies para proporcionar características útiles del sitio, recordar sus preferencias y mostrar contenido relevante, incluida publicidad relevante. Para aceptar o rechazar todas las cookies no esenciales, haga clic en “Aceptar” o “Rechazar”. Para elegir opciones más detalladas, haga clic en “Personalizar”.

Solidez semántica

Modo de enfoque
Solidez semántica - Amazon SageMaker AI

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Evalúa cuánto cambia la salida del modelo como resultado de pequeños cambios en la entrada que preservan la semántica. Las evaluaciones del modelo básico (FMEval) miden cómo cambia el resultado del modelo como resultado de errores tipográficos en el teclado, cambios aleatorios de mayúsculas y adiciones o eliminaciones aleatorias de espacios en blanco.

Amazon SageMaker AI admite la ejecución de una evaluación de solidez semántica desde Amazon SageMaker Studio o el uso de la biblioteca. fmeval

  • Ejecución de evaluaciones en Studio: los trabajos de evaluación creados en Studio utilizan valores predeterminados preseleccionados para evaluar rápidamente el rendimiento del modelo. Las evaluaciones de solidez semántica para la generación abierta no se pueden crear en Studio. Deben crearse con la biblioteca fmeval.

  • Ejecución de evaluaciones con la biblioteca fmeval: los trabajos de evaluación creados con la biblioteca fmeval ofrecen más opciones para configurar la evaluación del rendimiento del modelo.

Tipo de tarea admitida

La evaluación de la solidez semántica es compatible con los siguientes tipos de tareas con sus conjuntos de datos integrados asociados. Los usuarios también pueden traer su propio conjunto de datos. De forma predeterminada, la SageMaker IA toma muestras de 100 puntos de datos aleatorios del conjunto de datos para evaluar la toxicidad. Cuando se utiliza la fmeval biblioteca, esto se puede ajustar pasando el num_records parámetro al evaluate método. Para obtener información sobre cómo personalizar la evaluación del conocimiento fáctico mediante la fmeval biblioteca, consulte. Personalización de su flujo de trabajo mediante la biblioteca fmeval

Tipo de tarea Conjuntos de datos integrados Notas
Resumen de texto

Gigaword, Government Report Dataset

Respuesta a preguntas

BoolQ, TriviaQA NaturalQuestions

Clasificación

Women's E-Commerce Clothing Reviews

Generación abierta

T -, NEGRITA, -2 REx WikiText

Tipos de alteraciones

La evaluación de la solidez semántica produce una de las siguientes tres alteraciones. Puede seleccionar el tipo de alteración al configurar el trabajo de evaluación. Las tres alteraciones están adaptadas de NL-Augmenter.

Ejemplo de entrada del modelo: A quick brown fox jumps over the lazy dog

  • Butter Fingers: se introducen errores tipográficos al presionar la tecla adyacente.

    W quick brmwn fox jumps over the lazy dig
  • Random Upper Cas: se cambian letras al azar a mayúsculas.

    A qUick brOwn fox jumps over the lazY dog
  • Whitespace Add Remove: se añaden y eliminan espacios en blanco de la entrada de forma aleatoria.

    A q uick bro wn fox ju mps overthe lazy dog

Valores calculados

Esta evaluación mide el cambio de rendimiento entre la salida del modelo en función de la entrada original sin alteraciones y la salida del modelo en función de una serie de versiones con alteraciones de la entrada. Para obtener más información sobre la estructura de peticiones necesaria para la evaluación, consulte Creación de un trabajo de evaluación del modelo automática en Studio.

El cambio de rendimiento es la diferencia media entre la puntuación de la entrada original y las puntuaciones de las entradas con alteraciones. Las puntuaciones que se miden para evaluar este cambio en el rendimiento dependen del tipo de tarea:

Resumen

Para las tareas de resumen, la solidez semántica mide las siguientes puntuaciones cuando se utiliza la entrada con alteraciones, así como el Delta para cada puntuación. La puntuación Delta representa la diferencia absoluta media entre la puntuación de la entrada original y las puntuaciones de la entrada con alteraciones.

  • Puntuación Delta ROUGE: la diferencia media absoluta en la puntuación ROUGE para las entradas originales y con alteraciones. Las puntuaciones ROUGE se calculan de la misma manera que la puntuación ROUGE de Resumen.

  • Puntuación Delta METEOR: la diferencia media absoluta en la puntuación METEOR para las entradas originales y con alteraciones. Las puntuaciones METEOR se calculan de la misma manera que la puntuación METEOR de Resumen.

  • Delta BERTScore: la diferencia absoluta promedio entre BERTScore las entradas originales y perturbadas. BERTScores Se calculan de la misma manera que la entrada BERTScore . Resumen

Respuesta a preguntas

Para las tareas de respuesta a preguntas, la solidez semántica mide las siguientes puntuaciones cuando se utiliza la entrada con alteraciones, así como el Delta para cada puntuación. La puntuación Delta representa la diferencia absoluta media entre la puntuación de la entrada original y las puntuaciones de la entrada con alteraciones.

  • Puntuación Delta F1 con exceso de palabras: la diferencia media absoluta en la puntuación de F1 con exceso de palabras para las entradas originales y con alteraciones. Las puntuaciones F1 con exceso de palabras se calculan de la misma manera que la puntuación de F1 con exceso de palabras en Respuesta a preguntas.

  • Puntuación Delta de coincidencia exacta: la diferencia media absoluta en la puntuación de coincidencia exacta para las entradas originales y con alteraciones. Las puntuaciones de coincidencia exacta se calculan de la misma manera que la puntuación de coincidencia exacta en Respuesta a preguntas.

  • Puntuación Delta de coincidencia casi exacta: la diferencia media absoluta en la puntuación de coincidencia casi exacta para las entradas originales y con alteraciones. Las puntuaciones de coincidencia casi exacta se calculan de la misma manera que la puntuación de coincidencia casi exacta en Respuesta a preguntas.

  • Puntuación Delta de precisión con exceso de palabras: la diferencia media absoluta en la puntuación de la precisión con exceso de palabras para las entradas originales y con alteraciones. Las puntuaciones de la precisión con exceso de palabras se calculan de la misma manera que la puntuación de la precisión con exceso de palabras en Respuesta a preguntas.

  • Puntuación Delta de exhaustividad con exceso de palabras: la diferencia media absoluta en la puntuación de exhaustividad con exceso de palabras para las entradas originales y con alteraciones. Las puntuaciones de exhaustividad con exceso de palabras se calculan de la misma manera que la puntuación de exhaustividad con exceso de palabras en Respuesta a preguntas.

Clasificación

Para las tareas de clasificación, la solidez semántica mide la exactitud cuando se utiliza la entrada con alteraciones, así como el Delta para cada puntuación. La puntuación Delta representa la diferencia absoluta media entre la puntuación de la entrada original y las puntuaciones de la entrada con alteraciones.

  • Puntuación Delta de exactitud: la diferencia media absoluta en las puntuaciones de exactitud para las entradas originales y con alteraciones. Las puntuaciones de exactitud se calculan de la misma manera que la puntuación de exactitud de Clasificación.

Generación abierta

Las evaluaciones de solidez semántica para la generación abierta no se pueden crear en Studio. Deben crearse utilizando la fmeval biblioteca con GeneralSemanticRobustness. En lugar de calcular la diferencia en las puntuaciones para la generación abierta, la evaluación de la solidez semántica mide la diferencia en las generaciones de modelos entre la entrada original y la entrada con alteraciones. Esta diferencia se mide mediante las siguientes estrategias:

  • Tasa de errores verbales (WER): mide la diferencia sintáctica entre las dos generaciones calculando el porcentaje de palabras que deben cambiarse para convertir la primera generación en la segunda generación. Para obtener más información sobre el cálculo del WER, consulte el HuggingFace artículo sobre la tasa de errores de palabras.

    • Por ejemplo:

      • Entrada 1: “Esto es un gato”

      • Entrada 2: “Esto es un perro”

      • Número de palabras que se deben cambiar: 1/4 o 25 %

      • WER: 0,25

  • BERTScore Disimilitud (BSD): mide las diferencias semánticas entre las dos generaciones restando el 1 del 1. BERTScore La BSD puede explicar una flexibilidad lingüística adicional que no está incluida en WER, ya que las oraciones semánticamente similares pueden estar incrustadas más cerca unas de otras.

    • Por ejemplo, aunque la tasa WER es la misma cuando la generación 2 y la generación 3 se comparan individualmente con la generación 1, la puntuación de la BSD es diferente para tener en cuenta el significado semántico.

      • gen1 (entrada original): "It is pouring down today"

      • gen2 (entrada con alteraciones 1): "It is my birthday today"

      • gen3 (entrada con alteraciones 2): "It is very rainy today"

      • WER(gen1, gen2)=WER(gen2, gen3)=0.4

      • BERTScore(gen1, gen2)=0.67

      • BERTScore(gen1, gen3)=0.92

      • BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33

      • BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08

    • Se admiten las siguientes opciones como parte del parámetro: GeneralSemanticRobustnessConfig 

Modelos no deterministas

Cuando la estrategia de generación del modelo no es determinista, por ejemplo, LLMs con temperaturas distintas de cero, la salida puede cambiar incluso si la entrada es la misma. En estos casos, indicar las diferencias entre la salida del modelo de las entradas originales y con alteraciones podría mostrar una solidez artificialmente baja. Para tener en cuenta la estrategia no determinista, la evaluación de la solidez semántica normaliza la puntuación de diferencias restando la diferencia media entre la salida del modelo basándose en la misma entrada. 

max(0,d−dbase​)

  • d: la puntuación de disimilitud (tasa de error verbal o BERTScore disimilitud) entre las dos generaciones.

  • dbase​: diferencia entre la salida del modelo en la misma entrada.

PrivacidadTérminos del sitioPreferencias de cookies
© 2025, Amazon Web Services, Inc o sus afiliados. Todos los derechos reservados.