Comparaison quantitative des méthodes d'incertitude - AWSConseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Comparaison quantitative des méthodes d'incertitude

Cette section décrit comment nous avons comparé les méthodes d'estimation de l'incertitude en utilisant le Corpus of Linguistic Acceptability (CoLA) (Warstadt, Singh et Bowman 2019) ensemble de données. Le jeu de données CoLA consiste en un ensemble de phrases ainsi qu'un indicateur binaire indiquant si elles sont acceptables. Les phrases peuvent être considérées comme inacceptables pour différentes raisons, notamment une syntaxe incorrecte, une sémantique ou une morphologie inappropriées. Ces phrases sont tirées d'exemples de publications linguistiques. Deux jeux de validation sont disponibles. Un jeu de validation provient des mêmes sources que celles utilisées pour former le jeu de données d'entraînement (dans le domaine), et l'autre jeu de validation provient de sources qui ne sont pas contenues dans l'ensemble de formation (hors domaine). Le tableau suivant récapitule ces informations.

Ensemble de données Taille totale positives Négatif

entrainement

8551

6023

2528

Validation (dans le domaine)

527

363

164

Validation (hors domaine)

516

354

162

La comparaison utilise un Roberta (Liu et coll. 2019) avec des poids préentraînés et une tête initialisée aléatoirement avec une seule couche cachée. Les hyperparamètres sont généralement suggérés dans l'article Roberta avec quelques modifications mineures.