Solidez semántica

Modo de enfoque

Solidez semántica - Amazon SageMaker AI

Tipo de tarea admitida Tipos de alteraciones Valores calculados

Evalúa cuánto cambia la salida del modelo como resultado de pequeños cambios en la entrada que preservan la semántica. Las evaluaciones del modelo básico (FMEval) miden cómo cambia el resultado del modelo como resultado de errores tipográficos en el teclado, cambios aleatorios de mayúsculas y adiciones o eliminaciones aleatorias de espacios en blanco.

Amazon SageMaker AI admite la ejecución de una evaluación de solidez semántica desde Amazon SageMaker Studio o el uso de la biblioteca. fmeval

Ejecución de evaluaciones en Studio: los trabajos de evaluación creados en Studio utilizan valores predeterminados preseleccionados para evaluar rápidamente el rendimiento del modelo. Las evaluaciones de solidez semántica para la generación abierta no se pueden crear en Studio. Deben crearse con la biblioteca fmeval.
Ejecución de evaluaciones con la biblioteca fmeval: los trabajos de evaluación creados con la biblioteca fmeval ofrecen más opciones para configurar la evaluación del rendimiento del modelo.

Tipo de tarea admitida

La evaluación de la solidez semántica es compatible con los siguientes tipos de tareas con sus conjuntos de datos integrados asociados. Los usuarios también pueden traer su propio conjunto de datos. De forma predeterminada, la SageMaker IA toma muestras de 100 puntos de datos aleatorios del conjunto de datos para evaluar la toxicidad. Cuando se utiliza la fmeval biblioteca, esto se puede ajustar pasando el num_records parámetro al evaluate método. Para obtener información sobre cómo personalizar la evaluación del conocimiento fáctico mediante la fmeval biblioteca, consulte. Personalización de su flujo de trabajo mediante la biblioteca fmeval

Tipo de tarea	Conjuntos de datos integrados	Notas
Resumen de texto	Gigaword, Government Report Dataset
Respuesta a preguntas	BoolQ, TriviaQA NaturalQuestions
Clasificación	Women's E-Commerce Clothing Reviews
Generación abierta	T -, NEGRITA, -2 REx WikiText

Tipos de alteraciones

La evaluación de la solidez semántica produce una de las siguientes tres alteraciones. Puede seleccionar el tipo de alteración al configurar el trabajo de evaluación. Las tres alteraciones están adaptadas de NL-Augmenter.

Ejemplo de entrada del modelo: A quick brown fox jumps over the lazy dog.

Butter Fingers: se introducen errores tipográficos al presionar la tecla adyacente.
```
W quick brmwn fox jumps over the lazy dig
```
Random Upper Cas: se cambian letras al azar a mayúsculas.
```
A qUick brOwn fox jumps over the lazY dog
```
Whitespace Add Remove: se añaden y eliminan espacios en blanco de la entrada de forma aleatoria.
```
A q uick bro wn fox ju mps overthe lazy dog
```

Valores calculados

Esta evaluación mide el cambio de rendimiento entre la salida del modelo en función de la entrada original sin alteraciones y la salida del modelo en función de una serie de versiones con alteraciones de la entrada. Para obtener más información sobre la estructura de peticiones necesaria para la evaluación, consulte Creación de un trabajo de evaluación del modelo automática en Studio.

El cambio de rendimiento es la diferencia media entre la puntuación de la entrada original y las puntuaciones de las entradas con alteraciones. Las puntuaciones que se miden para evaluar este cambio en el rendimiento dependen del tipo de tarea:

Resumen

Para las tareas de resumen, la solidez semántica mide las siguientes puntuaciones cuando se utiliza la entrada con alteraciones, así como el Delta para cada puntuación. La puntuación Delta representa la diferencia absoluta media entre la puntuación de la entrada original y las puntuaciones de la entrada con alteraciones.

Puntuación Delta ROUGE: la diferencia media absoluta en la puntuación ROUGE para las entradas originales y con alteraciones. Las puntuaciones ROUGE se calculan de la misma manera que la puntuación ROUGE de Resumen.
Puntuación Delta METEOR: la diferencia media absoluta en la puntuación METEOR para las entradas originales y con alteraciones. Las puntuaciones METEOR se calculan de la misma manera que la puntuación METEOR de Resumen.
Delta BERTScore: la diferencia absoluta promedio entre BERTScore las entradas originales y perturbadas. BERTScores Se calculan de la misma manera que la entrada BERTScore . Resumen

Respuesta a preguntas

Para las tareas de respuesta a preguntas, la solidez semántica mide las siguientes puntuaciones cuando se utiliza la entrada con alteraciones, así como el Delta para cada puntuación. La puntuación Delta representa la diferencia absoluta media entre la puntuación de la entrada original y las puntuaciones de la entrada con alteraciones.

Puntuación Delta F1 con exceso de palabras: la diferencia media absoluta en la puntuación de F1 con exceso de palabras para las entradas originales y con alteraciones. Las puntuaciones F1 con exceso de palabras se calculan de la misma manera que la puntuación de F1 con exceso de palabras en Respuesta a preguntas.
Puntuación Delta de coincidencia exacta: la diferencia media absoluta en la puntuación de coincidencia exacta para las entradas originales y con alteraciones. Las puntuaciones de coincidencia exacta se calculan de la misma manera que la puntuación de coincidencia exacta en Respuesta a preguntas.
Puntuación Delta de coincidencia casi exacta: la diferencia media absoluta en la puntuación de coincidencia casi exacta para las entradas originales y con alteraciones. Las puntuaciones de coincidencia casi exacta se calculan de la misma manera que la puntuación de coincidencia casi exacta en Respuesta a preguntas.
Puntuación Delta de precisión con exceso de palabras: la diferencia media absoluta en la puntuación de la precisión con exceso de palabras para las entradas originales y con alteraciones. Las puntuaciones de la precisión con exceso de palabras se calculan de la misma manera que la puntuación de la precisión con exceso de palabras en Respuesta a preguntas.
Puntuación Delta de exhaustividad con exceso de palabras: la diferencia media absoluta en la puntuación de exhaustividad con exceso de palabras para las entradas originales y con alteraciones. Las puntuaciones de exhaustividad con exceso de palabras se calculan de la misma manera que la puntuación de exhaustividad con exceso de palabras en Respuesta a preguntas.

Clasificación

Para las tareas de clasificación, la solidez semántica mide la exactitud cuando se utiliza la entrada con alteraciones, así como el Delta para cada puntuación. La puntuación Delta representa la diferencia absoluta media entre la puntuación de la entrada original y las puntuaciones de la entrada con alteraciones.

Puntuación Delta de exactitud: la diferencia media absoluta en las puntuaciones de exactitud para las entradas originales y con alteraciones. Las puntuaciones de exactitud se calculan de la misma manera que la puntuación de exactitud de Clasificación.

Generación abierta

Las evaluaciones de solidez semántica para la generación abierta no se pueden crear en Studio. Deben crearse utilizando la fmeval biblioteca con GeneralSemanticRobustness. En lugar de calcular la diferencia en las puntuaciones para la generación abierta, la evaluación de la solidez semántica mide la diferencia en las generaciones de modelos entre la entrada original y la entrada con alteraciones. Esta diferencia se mide mediante las siguientes estrategias:

Tasa de errores verbales (WER): mide la diferencia sintáctica entre las dos generaciones calculando el porcentaje de palabras que deben cambiarse para convertir la primera generación en la segunda generación. Para obtener más información sobre el cálculo del WER, consulte el HuggingFace artículo sobre la tasa de errores de palabras.
- Por ejemplo:
  - Entrada 1: “Esto es un gato”
  - Entrada 2: “Esto es un perro”
  - Número de palabras que se deben cambiar: 1/4 o 25 %
  - WER: 0,25
BERTScore Disimilitud (BSD): mide las diferencias semánticas entre las dos generaciones restando el 1 del 1. BERTScore La BSD puede explicar una flexibilidad lingüística adicional que no está incluida en WER, ya que las oraciones semánticamente similares pueden estar incrustadas más cerca unas de otras.
- Por ejemplo, aunque la tasa WER es la misma cuando la generación 2 y la generación 3 se comparan individualmente con la generación 1, la puntuación de la BSD es diferente para tener en cuenta el significado semántico.
  - gen1 (entrada original): "It is pouring down today"
  - gen2 (entrada con alteraciones 1): "It is my birthday today"
  - gen3 (entrada con alteraciones 2): "It is very rainy today"
  - WER(gen1, gen2)=WER(gen2, gen3)=0.4
  - BERTScore(gen1, gen2)=0.67
  - BERTScore(gen1, gen3)=0.92
  - BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33
  - BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08
- Se admiten las siguientes opciones como parte del parámetro: GeneralSemanticRobustnessConfig
  - model_type_for_bertscore: nombre del modelo que se va a utilizar para la puntuación. BERTScore Actualmente, la disimilitud solo admite los siguientes modelos:
    
    microsoft/deberta-xlarge-mnli (predeterminado)
    
    "roberta-large-mnli"

Modelos no deterministas

Cuando la estrategia de generación del modelo no es determinista, por ejemplo, LLMs con temperaturas distintas de cero, la salida puede cambiar incluso si la entrada es la misma. En estos casos, indicar las diferencias entre la salida del modelo de las entradas originales y con alteraciones podría mostrar una solidez artificialmente baja. Para tener en cuenta la estrategia no determinista, la evaluación de la solidez semántica normaliza la puntuación de diferencias restando la diferencia media entre la salida del modelo basándose en la misma entrada.

max(0,d−dbase)

d: la puntuación de disimilitud (tasa de error verbal o BERTScore disimilitud) entre las dos generaciones.
dbase: diferencia entre la salida del modelo en la misma entrada.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Estereotipado de peticiones

Toxicidad

Tema siguiente:

Toxicidad

Tema anterior:

Estereotipado de peticiones

¿Necesita ayuda?

En esta página

Seleccione sus preferencias de cookies

Personalizar preferencias de cookies

Esenciales

De rendimiento

Funcionales

De publicidad

No se pueden guardar las preferencias de cookies