Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Evalúa cuánto cambia la salida del modelo como resultado de pequeños cambios en la entrada que preservan la semántica. Las evaluaciones del modelo básico (FMEval) miden cómo cambia el resultado del modelo como resultado de errores tipográficos en el teclado, cambios aleatorios de mayúsculas y adiciones o eliminaciones aleatorias de espacios en blanco.
Amazon SageMaker AI admite la ejecución de una evaluación de solidez semántica desde Amazon SageMaker Studio o el uso de la biblioteca. fmeval
-
Ejecución de evaluaciones en Studio: los trabajos de evaluación creados en Studio utilizan valores predeterminados preseleccionados para evaluar rápidamente el rendimiento del modelo. Las evaluaciones de solidez semántica para la generación abierta no se pueden crear en Studio. Deben crearse con la biblioteca
fmeval
. -
Ejecución de evaluaciones con la biblioteca
fmeval
: los trabajos de evaluación creados con la bibliotecafmeval
ofrecen más opciones para configurar la evaluación del rendimiento del modelo.
Tipo de tarea admitida
La evaluación de la solidez semántica es compatible con los siguientes tipos de tareas con sus conjuntos de datos integrados asociados. Los usuarios también pueden traer su propio conjunto de datos. De forma predeterminada, la SageMaker IA toma muestras de 100 puntos de datos aleatorios del conjunto de datos para evaluar la toxicidad. Cuando se utiliza la fmeval
biblioteca, esto se puede ajustar pasando el num_records
parámetro al evaluate
método. Para obtener información sobre cómo personalizar la evaluación del conocimiento fáctico mediante la fmeval
biblioteca, consulte. Personalización de su flujo de trabajo mediante la biblioteca fmeval
Tipo de tarea | Conjuntos de datos integrados | Notas |
---|---|---|
Resumen de texto | ||
Respuesta a preguntas | ||
Clasificación | ||
Generación abierta |
Tipos de alteraciones
La evaluación de la solidez semántica produce una de las siguientes tres alteraciones. Puede seleccionar el tipo de alteración al configurar el trabajo de evaluación. Las tres alteraciones están adaptadas de NL-Augmenter.
Ejemplo de entrada del modelo: A quick brown fox jumps over the lazy dog
.
-
Butter Fingers
: se introducen errores tipográficos al presionar la tecla adyacente. W quick brmwn fox jumps over the lazy dig
-
Random Upper Cas
: se cambian letras al azar a mayúsculas. A qUick brOwn fox jumps over the lazY dog
-
Whitespace Add Remove
: se añaden y eliminan espacios en blanco de la entrada de forma aleatoria. A q uick bro wn fox ju mps overthe lazy dog
Valores calculados
Esta evaluación mide el cambio de rendimiento entre la salida del modelo en función de la entrada original sin alteraciones y la salida del modelo en función de una serie de versiones con alteraciones de la entrada. Para obtener más información sobre la estructura de peticiones necesaria para la evaluación, consulte Creación de un trabajo de evaluación del modelo automática en Studio.
El cambio de rendimiento es la diferencia media entre la puntuación de la entrada original y las puntuaciones de las entradas con alteraciones. Las puntuaciones que se miden para evaluar este cambio en el rendimiento dependen del tipo de tarea:
Resumen
Para las tareas de resumen, la solidez semántica mide las siguientes puntuaciones cuando se utiliza la entrada con alteraciones, así como el Delta para cada puntuación. La puntuación Delta representa la diferencia absoluta media entre la puntuación de la entrada original y las puntuaciones de la entrada con alteraciones.
-
Puntuación Delta ROUGE: la diferencia media absoluta en la puntuación ROUGE para las entradas originales y con alteraciones. Las puntuaciones ROUGE se calculan de la misma manera que la puntuación ROUGE de Resumen.
-
Puntuación Delta METEOR: la diferencia media absoluta en la puntuación METEOR para las entradas originales y con alteraciones. Las puntuaciones METEOR se calculan de la misma manera que la puntuación METEOR de Resumen.
-
Delta BERTScore: la diferencia absoluta promedio entre BERTScore las entradas originales y perturbadas. BERTScores Se calculan de la misma manera que la entrada BERTScore . Resumen
Respuesta a preguntas
Para las tareas de respuesta a preguntas, la solidez semántica mide las siguientes puntuaciones cuando se utiliza la entrada con alteraciones, así como el Delta para cada puntuación. La puntuación Delta representa la diferencia absoluta media entre la puntuación de la entrada original y las puntuaciones de la entrada con alteraciones.
-
Puntuación Delta F1 con exceso de palabras: la diferencia media absoluta en la puntuación de F1 con exceso de palabras para las entradas originales y con alteraciones. Las puntuaciones F1 con exceso de palabras se calculan de la misma manera que la puntuación de F1 con exceso de palabras en Respuesta a preguntas.
-
Puntuación Delta de coincidencia exacta: la diferencia media absoluta en la puntuación de coincidencia exacta para las entradas originales y con alteraciones. Las puntuaciones de coincidencia exacta se calculan de la misma manera que la puntuación de coincidencia exacta en Respuesta a preguntas.
-
Puntuación Delta de coincidencia casi exacta: la diferencia media absoluta en la puntuación de coincidencia casi exacta para las entradas originales y con alteraciones. Las puntuaciones de coincidencia casi exacta se calculan de la misma manera que la puntuación de coincidencia casi exacta en Respuesta a preguntas.
-
Puntuación Delta de precisión con exceso de palabras: la diferencia media absoluta en la puntuación de la precisión con exceso de palabras para las entradas originales y con alteraciones. Las puntuaciones de la precisión con exceso de palabras se calculan de la misma manera que la puntuación de la precisión con exceso de palabras en Respuesta a preguntas.
-
Puntuación Delta de exhaustividad con exceso de palabras: la diferencia media absoluta en la puntuación de exhaustividad con exceso de palabras para las entradas originales y con alteraciones. Las puntuaciones de exhaustividad con exceso de palabras se calculan de la misma manera que la puntuación de exhaustividad con exceso de palabras en Respuesta a preguntas.
Clasificación
Para las tareas de clasificación, la solidez semántica mide la exactitud cuando se utiliza la entrada con alteraciones, así como el Delta para cada puntuación. La puntuación Delta representa la diferencia absoluta media entre la puntuación de la entrada original y las puntuaciones de la entrada con alteraciones.
-
Puntuación Delta de exactitud: la diferencia media absoluta en las puntuaciones de exactitud para las entradas originales y con alteraciones. Las puntuaciones de exactitud se calculan de la misma manera que la puntuación de exactitud de Clasificación.
Generación abierta
Las evaluaciones de solidez semántica para la generación abierta no se pueden crear en Studio. Deben crearse utilizando la fmeval
biblioteca con GeneralSemanticRobustness
-
Tasa de errores
verbales (WER): mide la diferencia sintáctica entre las dos generaciones calculando el porcentaje de palabras que deben cambiarse para convertir la primera generación en la segunda generación. Para obtener más información sobre el cálculo del WER, consulte el HuggingFace artículo sobre la tasa de errores de palabras . -
Por ejemplo:
-
Entrada 1: “Esto es un gato”
-
Entrada 2: “Esto es un perro”
-
Número de palabras que se deben cambiar: 1/4 o 25 %
-
WER: 0,25
-
-
-
BERTScore Disimilitud (BSD): mide las diferencias semánticas entre las dos generaciones restando el 1 del 1. BERTScore La BSD puede explicar una flexibilidad lingüística adicional que no está incluida en WER, ya que las oraciones semánticamente similares pueden estar incrustadas más cerca unas de otras.
-
Por ejemplo, aunque la tasa WER es la misma cuando la generación 2 y la generación 3 se comparan individualmente con la generación 1, la puntuación de la BSD es diferente para tener en cuenta el significado semántico.
-
gen1 (entrada original):
"It is pouring down today"
-
gen2 (entrada con alteraciones 1):
"It is my birthday today"
-
gen3 (entrada con alteraciones 2):
"It is very rainy today"
-
WER(gen1, gen2)=WER(gen2, gen3)=0.4
-
BERTScore(gen1, gen2)=0.67
-
BERTScore(gen1, gen3)=0.92
-
BSD(gen1, gen2)= 1-BERTScore(gen1, gen2)=0.33
-
BSD(gen2 ,gen3)= 1-BERTScore(gen2, gen3)=0.08
-
-
Se admiten las siguientes opciones como parte del parámetro: GeneralSemanticRobustnessConfig
-
model_type_for_bertscore
: nombre del modelo que se va a utilizar para la puntuación. BERTScore Actualmente, la disimilitud solo admite los siguientes modelos:-
microsoft/deberta-xlarge-mnli
(predeterminado)
-
-
-
Modelos no deterministas
Cuando la estrategia de generación del modelo no es determinista, por ejemplo, LLMs con temperaturas distintas de cero, la salida puede cambiar incluso si la entrada es la misma. En estos casos, indicar las diferencias entre la salida del modelo de las entradas originales y con alteraciones podría mostrar una solidez artificialmente baja. Para tener en cuenta la estrategia no determinista, la evaluación de la solidez semántica normaliza la puntuación de diferencias restando la diferencia media entre la salida del modelo basándose en la misma entrada.
max(0,d−dbase)
-
d
: la puntuación de disimilitud (tasa de error verbal o BERTScore disimilitud) entre las dos generaciones. -
dbase
: diferencia entre la salida del modelo en la misma entrada.