Couverture et précision des documents — hors domaine - AWSConseils prescriptifs

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Couverture et précision des documents — hors domaine

Nous avons également examiné des données hors domaine, extraites de manuels de syntaxe qui n'étaient pas utilisés pour obtenir les données de formation. Cependant, nous n'avons pas observé de différence notable dans les performances relatives. Cela est peut-être dû au fait que le contenu quantitatif des caractéristiques linguistiques diffère probablement très peu, bien que les phrases proviennent de différents manuels scolaires.

Le graphique suivant fournit une comparaison des caractéristiques linguistiques les plus fréquentes entre les deux sources de données. Il montre très peu de différence entre les distributions des jeux de données internes et hors domaine. En outre, en ce qui concerne le vocabulaire, le modèle a eu au moins une certaine exposition à un langage hors domaine lors de la formation sur des exemples internes. Tous les mots trouvés dans l'ensemble hors domaine avaient un nombre de fréquences d'au moins 100 sur l'ensemble de l'ensemble de la formation (Warstadt, Singh et Bowman 2019). Ainsi, les données hors domaine n'ont pas été considérées comme véritablement hors distribution. Pour plus d'informations sur les fonctions linguistiques, consultez Warstadt, Singh et Bowman (2019).


    Comparaison des caractéristiques linguistiques les plus fréquentes entre les deux sources de données

Pour mieux comprendre la capacité de l'ensemble profond et du décrochage de Monte Carlo à estimer l'incertitude dans un cadre vraiment hors distribution, nous avons créé trois jeux de données contradictoires qui comprenaient des mots aléatoires injectés dans les phrases :

  • Un jeu de données contenant des mots rares introuvables dans le jeu de données d'entraînement

  • Un jeu de données contenant des mots non anglais introuvables dans le jeu de données d'entraînement

  • Un jeu de données avec un mélange des deux jeux de données précédents

Tous les mots injectés étaient présents dans le vocabulaire original utilisé pour préentraîner le modèle.

Le graphique suivant montre la corrélation entre la précision et la couverture du troisième jeu de données. Les premier et deuxième jeux de données présentent des modèles similaires.


    Corrélation entre la précision et la couverture des jeux de données contradictoires

Le graphique montre clairement l'avantage de l'utilisation de MC abandonnant ou d'ensembles profonds avec décrochage MC pour des niveaux de couverture supérieurs à 40 %. Nous soupçonnons que ces deux méthodes présentent des performances similaires car le modèle de pré-entraînement n'inclut pas beaucoup de diversification. Cela ouvre la voie à d'autres enquêtes. La dégradation significative des performances de la méthode softmax naïve qui se produit au-dessus de 40 % de couverture de documents est probablement due au fait que nous avons modifié environ 55 % de l'ensemble de validation avec notre processus de génération de données contradictoire. Dans la région de faible couverture, les méthodes ont des valeurs de précision similaires, car ces ensembles de données ne sont pas hors distribution.