Comparación cuantitativa de los métodos de incertidumbre - AWSGuía prescriptiva

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Comparación cuantitativa de los métodos de incertidumbre

En esta sección se describe cómo comparamos los métodos para estimar la incertidumbre mediante el Corpus de Aceptabilidad Lingüística (CoLA) (Warstadt, Singh y Bowman 2019) conjunto de datos El conjunto de datos CoLA consiste en una colección de oraciones junto con un indicador binario de si son aceptables. Las oraciones pueden etiquetarse como inaceptables a causa de diversos motivos, como la sintaxis, la semántica o la morfología incorrectas. Estas frases están tomadas de ejemplos de publicaciones lingüísticas. Hay dos conjuntos de validación. Un conjunto de validación se toma de los mismos orígenes utilizados para formar el conjunto de datos de formación (en dominio) y el otro conjunto de validación se toma de fuentes que no están incluidas en el conjunto de formación (fuera de dominio). En la siguiente tabla se resumen esta información.

Conjunto de datos Tamaño total positivo Negativo

Capacitación

8551

6023

2528

Validación (en dominio)

527

363

164

Validación (fuera de dominio)

516

354

162

La comparación utiliza un RoberTA (Liu et al. 2019) arquitectura base con pesos preentrenados y un cabezal inicializado aleatoriamente con una sola capa oculta. Los hiperparámetros se sugieren principalmente en el documento RobertA con algunas modificaciones menores.