Abdeckung und Genauigkeit von Dokumenten — außerhalb der Domäne - AWSPräskriptive Anleitung

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Abdeckung und Genauigkeit von Dokumenten — außerhalb der Domäne

Wir haben auch Daten außerhalb der Domäne untersucht, die aus Syntaxlehrbüchern stammen, die nicht zur Beschaffung der Trainingsdaten verwendet wurden. Wir haben jedoch keinen merklichen Unterschied in der relativen Leistung festgestellt. Dies liegt vielleicht daran, dass der quantitative Inhalt sprachlicher Merkmale wahrscheinlich sehr wenig abweichen würde, obwohl Sätze aus verschiedenen Lehrbüchern stammen.

Die folgende Grafik bietet einen Vergleich der häufigsten sprachlichen Merkmale in den beiden Datenquellen. Es zeigt einen sehr geringen Unterschied zwischen den Distributionen der In-Domain- und Out-of-Domain-Datasets. Darüber hinaus hatte das Modell in Bezug auf das Vokabular während des Trainings an In-Domain-Beispielen zumindest eine gewisse Exposition mit außerhalb der Domain-Sprache. Alle Wörter, die im Out-of-Domain-Set gefunden wurden, hatten eine Frequenzzahl von mindestens 100 über den gesamten Trainingssatz (Warstadt, Singh und Bowman 2019) enthalten. Daher wurden die Daten außerhalb der Domäne nicht als wirklich nicht vertrieben angesehen. Weitere Informationen zu den sprachlichen Merkmalen finden Sie Warstadt, Singh und Bowman (2019) enthalten.


    Vergleich der häufigsten sprachlichen Merkmale in den beiden Datenquellen

Um ein besseres Gefühl für die Fähigkeit des tiefen Ensembles und des Monte Carlo-Abbrecher zu erlangen, die Unsicherheit in einer wirklich außerhalb der Verteilung abzuschätzen, haben wir drei gegnerische Datensätze erstellt, die zufällige Wörter enthielten, die in die Sätze injiziert wurden:

  • Ein Datensatz mit seltenen Wörtern, die nicht im Trainingsdatensatz gefunden wurden

  • Ein Datensatz mit nicht englischen Wörtern wurde im Trainingsdatensatz nicht gefunden

  • Ein Datensatz mit einer Mischung der beiden vorherigen Datensätze

Alle injizierten Wörter waren im ursprünglichen Vokabular vorhanden, das für das Vortraining des Modells verwendet wurde.

Die folgende Grafik zeigt die Korrelation zwischen Genauigkeit und Abdeckung für den dritten Datensatz. Der erste und der zweite Datensatz zeigen ähnliche Muster.


    Korrelation zwischen Genauigkeit und Abdeckung für gegnerische Datensätze

Die Grafik zeigt einen deutlichen Vorteil aus der Verwendung von MC-Dropout oder Deep Ensembles mit MC Dropout für Deckungsniveaus über 40%. Wir vermuten, dass diese beiden Methoden eine ähnliche Leistung aufweisen, da das Vortrainingsmodell keine große Diversifizierung beinhaltet. Dies ebnet den Weg für weitere Untersuchungen. Die signifikante Leistungsverschlechterung für die naive Softmax-Methode, die über 40% der Dokumentenabdeckung auftritt, liegt wahrscheinlich daran, dass wir etwa 55% der Validierung geändert haben, die mit unserem Prozess der gegnerischen Datengenerierung festgelegt wurde. In der Region mit niedriger Abdeckung weisen die Methoden ähnliche Genauigkeitswerte auf, da diese Datensätze nicht außerhalb der Verteilung sind.