Fallstudie - AWSPräskriptive Anleitung

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Fallstudie

Dieser Abschnitt befasst sich mit einem realen Geschäftsszenario und einer Anwendung zur Quantifizierung von Unsicherheiten in Deep-Learning-Systemen. Angenommen, Sie möchten, dass ein maschinelles Lernmodell automatisch beurteilt, ob ein Satz grammatisch inakzeptabel (negativer Fall) oder akzeptabel ist (positiver Fall). Berücksichtigen Sie dabei den folgenden Geschäftsprozess: Wenn das Modell einen Satz als grammatisch akzeptabel (positiv) kennzeichnet, verarbeiten Sie ihn automatisch, ohne menschliche Überprüfung. Wenn das Modell den Satz als inakzeptabel (negativ) kennzeichnet, übergeben Sie den Satz zur Überprüfung und Korrektur an einen Menschen. Die Fallstudie verwendet tiefe Ensembles zusammen mit Temperaturskalierung.

Dieses Szenario hat zwei Geschäftsziele:

  • Hoher Rückruf für negative Fälle. Wir wollen alle Sätze fangen, die grammatische Fehler haben.

  • Reduzierung der manuellen Arbeitsbelastung. Wir möchten Fälle, die keine grammatischen Fehler haben, so weit wie möglich automatisch verarbeiten.

Basisergebnisse

Wenn ein einzelnes Modell auf die Daten ohne Dropout zum Testzeitpunkt angewendet wird, sind dies die Ergebnisse:

  • Für positive Stichprobe: Rückruf= 94%, Genauigkeit = 82%

  • Für negative Stichprobe: Rückruf= 52%, Genauigkeit = 79%

Das Modell hat eine viel geringere Leistung für negative Stichproben. Für Geschäftsanwendungen sollte der Rückruf für negative Stichproben jedoch die wichtigste Metrik sein.

Anwendung von tiefen Ensembles

Um Modellunsicherheit zu quantifizieren, haben wir die Standardabweichungen einzelner Modellvorhersagen über tiefe Ensembles hinweg verwendet. Unsere Hypothese ist, dass wir bei False Positives (FP) und False Negative (FN) erwarten, dass die Unsicherheit viel höher ist als bei True Positives (TP) und True Negative (TN). Insbesondere sollte das Modell ein hohes Vertrauen haben, wenn es richtig ist, und ein geringes Vertrauen, wenn es falsch ist, so dass wir Unsicherheit verwenden können, um zu sagen, wann die Ausgabe des Modells vertrauen soll.

Die folgende Verwirrungsmatrix zeigt die Unsicherheitsverteilung über FN-, FP-, TN- und TP-Daten. Die Wahrscheinlichkeit einer negativen Standardabweichung ist die Standardabweichung der Wahrscheinlichkeit von Negativen über Modelle hinweg. Median, Mittelwert und Standardabweichungen werden über das Dataset aggregiert.

  Wahrscheinlichkeit negativer Standardabweichung
Bezeichnung MEDIAN Mean Standardabweichung

FN

0,061

0,060

0,027

FP

0,063

0,062

0.040

TN

0,039

0,045

0.026

TP

0,009

0,020

0,025

Wie die Matrix zeigt, hat das Modell am besten für TP ausgeführt, so dass die geringste Unsicherheit hat. Das Modell hat das schlechteste für FP, so dass hat die höchste Unsicherheit, die im Einklang mit unserer Hypothese.

Um die Abweichung des Modells zwischen Ensembles direkt zu visualisieren, stellt das folgende Diagramm die Wahrscheinlichkeit in einer Streuansicht für FN und FP für die CoLA-Daten dar. Jede vertikale Linie ist für ein bestimmtes Eingabesample bestimmt. Das Diagramm zeigt acht Ensemblemodellansichten. Das heißt, jede vertikale Linie hat acht Datenpunkte. Diese Punkte überlappen sich entweder perfekt oder sind in einem Bereich verteilt.

Die erste Grafik zeigt, dass für die FPs die Wahrscheinlichkeit, positiv zu sein, zwischen 0,5 und 0,925 auf alle acht Modelle des Ensembles verteilt.


    FP-Graph aus Deep Learning Fallstudie

In ähnlicher Weise zeigt das nächste Diagramm, dass für die FNs die Wahrscheinlichkeit, negativ zu sein, zwischen 0,5 und 0,85 unter den acht Modellen im Ensemble verteilt.


    FN-Graph aus Deep Learning Fallstudie

Definieren einer Entscheidungsregel

Um den Nutzen der Ergebnisse zu maximieren, verwenden wir die folgende Ensembleregel: Für jede Eingabe nehmen wir das Modell, das die geringste Wahrscheinlichkeit hat, positiv (akzeptabel) zu sein, um Kennzeichnungsentscheidungen zu treffen. Wenn die ausgewählte Wahrscheinlichkeit größer oder gleich dem Schwellenwert ist, kennzeichnen wir die Groß-/Kleinschreibung als akzeptabel und verarbeiten sie automatisch. Andernfalls senden wir den Fall zur menschlichen Überprüfung. Dies ist eine konservative Entscheidungsregel, die in stark regulierten Umgebungen angemessen ist.

Evaluieren Sie die Ergebnisse

Die folgende Grafik zeigt die Genauigkeit, den Rückruf und die automatische (Automatisierung) Rate für die negativen Fälle (Fälle mit grammatischen Fehlern). Die Automatisierungsrate bezieht sich auf den Prozentsatz der Fälle, die automatisch verarbeitet werden, da das Modell den Satz als akzeptabel kennzeichnet. Ein perfektes Modell mit 100% Rückruf und Präzision würde eine Automatisierungsrate von 69% (positive Fälle/Gesamtfälle) erreichen, da nur positive Fälle automatisch verarbeitet werden.


    Präzision, Rückruf und automatische Rate für die negativen Fälle in der Deep Learning Fallstudie

Der Vergleich zwischen dem tiefen Ensemble und naiven Fällen zeigt, dass bei der gleichen Grenzeinstellung der Rückruf recht drastisch zunimmt und die Präzision leicht abnimmt. (Die Automatisierungsrate hängt vom positiven und negativen Sample-Verhältnis im Test-Dataset ab.) Zum Beispiel:

  • Verwenden eines Schwellenwerts von 0,5:

    • Bei einem einzigen Modell wird der Rückruf für negative Fälle 52% betragen.

    • Mit dem tiefen Ensemble-Ansatz wird der Rückrufwert 69% betragen.

  • Verwenden eines Schwellenwerts von 0,88:

    • Bei einem einzigen Modell wird der Rückruf für negative Fälle 87% betragen.

    • Mit dem tiefen Ensemble-Ansatz wird der Rückrufwert 94% betragen.

Sie können sehen, dass Deep Ensemble bestimmte Metriken (in unserem Fall der Rückruf negativer Fälle) für Geschäftsanwendungen steigern kann, ohne dass die Größe der Trainingsdaten, ihre Qualität oder eine Änderung der Methode des Modells zu erhöhen.