Dokumentenabdeckung und -genauigkeit — außerhalb der Domäne - AWSPräskriptive Anleitung

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Dokumentenabdeckung und -genauigkeit — außerhalb der Domäne

Wir haben auch Daten außerhalb der Domäne untersucht, die aus Syntax-Lehrbüchern stammen, die nicht zur Quelle der Trainingsdaten verwendet wurden. Allerdings haben wir keinen spürbaren Unterschied in der relativen Leistung beobachtet. Dies liegt vielleicht daran, dass sich der quantitative Inhalt der sprachlichen Merkmale wahrscheinlich sehr wenig unterscheiden würde, obwohl Sätze aus verschiedenen Lehrbüchern stammen.

Das folgende Diagramm bietet einen Vergleich der häufigsten sprachlichen Merkmale in den beiden Datenquellen. Es zeigt einen sehr geringen Unterschied zwischen den Verteilungen der Indomänen- und Out-of-Domain-Datasets. Hinsichtlich des Wortschatzes hatte das Modell während des Trainings an In-Domain-Beispielen zumindest eine gewisse Exposition mit fremder Sprache. Alle Wörter, die im Out-of-Domain-Satz gefunden wurden, hatten eine Häufigkeitszahl von mindestens 100 über das gesamte Trainingsset (Warstadt, Singh und Bowman 2019) enthalten. Daher wurden die Daten außerhalb der Domäne nicht als wirklich außerhalb der Verteilung betrachtet. Weitere Informationen zu den sprachlichen Funktionen finden Sie Warstadt, Singh und Bowman (2019) enthalten.


    Vergleich der häufigsten sprachlichen Merkmale in den beiden Datenquellen

Um ein besseres Verständnis für die Fähigkeit des Deep Ensembles und Monte Carlo Dropout zu gewinnen, Unsicherheit in einer wirklich verteilten Umgebung zu schätzen, haben wir drei gegnerische Datensätze erstellt, die zufällige Wörter enthalten, die in die Sätze injiziert wurden:

  • Ein Datensatz mit seltenen Wörtern, die nicht im Trainings-Dataset gefunden wurden

  • Ein Datensatz mit nicht-englischen Wörtern, die nicht im Trainings-Dataset gefunden wurden

  • Ein Datensatz mit einer Mischung aus den beiden vorherigen Datensätzen

Alle injizierten Wörter waren im ursprünglichen Vokabular vorhanden, das für das Vortraining des Modells verwendet wurde.

Die folgende Grafik zeigt die Korrelation zwischen Genauigkeit und Coverage für das dritte Dataset. Die ersten und zweiten Datasets zeigen ähnliche Muster.


    Korrelation zwischen Genauigkeit und Abdeckung für gegnerische Datensätze

Die Grafik zeigt einen deutlichen Vorteil aus der Verwendung von MC-Dropout oder Deep Ensembles mit MC-Dropout für Coverage-Ebenen über 40%. Wir vermuten, dass diese beiden Methoden eine ähnliche Leistung aufweisen, da das Vortrainingsmodell nicht viel Diversifizierung beinhaltet. Dies eröffnet den Weg für weitere Untersuchungen. Die signifikante Leistungsverschlechterung für die naive Softmax-Methode, die über 40% Dokumentabdeckung auftritt, ist wahrscheinlich, weil wir ungefähr 55% des Validierungssatzes mit unserem gegnerischen Datengenerierungsprozess verändert haben. Im Bereich mit geringem Coverage weisen die Methoden ähnliche Genauigkeitswerte auf, da diese Datensätze nicht außerhalb der Verteilung liegen.