Fallstudie - AWS Prescriptive Guidance

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Fallstudie

In diesem Abschnitt wird ein reales Geschäftsszenario und eine Anwendung zur Quantifizierung der Unsicherheit in Deep-Learning-Systemen untersucht. Angenommen, Sie möchten, dass ein Modell für maschinelles Lernen automatisch beurteilt, ob ein Satz grammatikalisch inakzeptabel (negativer Fall) oder akzeptabel (positiver Fall) ist. Betrachten Sie den folgenden Geschäftsprozess: Wenn das Modell einen Satz als grammatikalisch akzeptabel (positiv) kennzeichnet, verarbeiten Sie ihn automatisch, ohne menschliche Überprüfung. Wenn das Modell den Satz als inakzeptabel (negativ) bezeichnet, übermitteln Sie das Urteil zur Überprüfung und Korrektur an einen Menschen. Die Fallstudie verwendet tiefe Ensembles zusammen mit der Temperaturskalierung.

Dieses Szenario hat zwei Geschäftsziele:

  • Hoher Rückruf für negative Fälle. Wir wollen alle Sätze abfangen, die grammatikalische Fehler aufweisen.

  • Reduzierung der manuellen Arbeitsbelastung. Wir möchten Fälle, die keine grammatikalischen Fehler aufweisen, so weit wie möglich automatisch verarbeiten.

Basisergebnisse

Wenn Sie ein einzelnes Modell auf die Daten ohne Ausfall zur Testzeit anwenden, sind dies die Ergebnisse:

  • Für positive Probe: recall= 94%, Genauigkeit = 82%

  • Für negative Stichprobe: recall= 52%, Genauigkeit = 79%

Das Modell hat eine viel geringere Leistung für negative Proben. Für Geschäftsanwendungen sollte der Rückruf für negative Stichproben jedoch die wichtigste Metrik sein.

Anwendung von tiefen Ensembles

Um die Modellunsicherheit zu quantifizieren, haben wir die Standardabweichungen einzelner Modellvorhersagen über tiefe Ensembles hinweg verwendet. Unsere Hypothese lautet, dass wir für Falsch-Positives (FP) und falsche Negative (FN) erwarten, dass die Unsicherheit viel höher ist als bei True Positives (TP) und True Negative (TN). Insbesondere sollte das Modell ein hohes Vertrauen haben, wenn es richtig ist, und wenig Vertrauen, wenn es falsch ist, damit wir mit Unsicherheit feststellen können, wann wir der Leistung des Modells vertrauen müssen.

Die folgende Verwirrungsmatrix zeigt die Unsicherheitsverteilung auf FN-, FP-, TN- und TP-Daten. Die Wahrscheinlichkeit einer negativen Standardabweichung ist die Standardabweichung der Wahrscheinlichkeit von Negativen über Modelle hinweg. Der Median-, Mittelwert- und Standardabweichungen werden im gesamten Datensatz aggregiert.

  Wahrscheinlichkeit einer negativen Standardabweichung
Bezeichnung MEDIAN Mean Standardabweichung

FN

0,061

0,060

0,027

FP

0,063

0,062

0,040

TN

0,039

0,045

0,026

TP

0,009

0,020

0,025

Wie die Matrix zeigt, hat das Modell die beste Leistung für TP geleistet, so dass dies die geringste Unsicherheit aufweist. Das Modell hat das schlechteste für FP abgeschnitten, so dass es die höchste Unsicherheit aufweist, die unserer Hypothese entspricht.

Um die Abweichung des Modells zwischen Ensembles direkt zu visualisieren, zeigt das folgende Diagramm die Wahrscheinlichkeit in einer Streuansicht für FN und FP für die ColA-Daten. Jede vertikale Linie gilt für ein bestimmtes Eingabebeispiel. Das Diagramm zeigt acht Ensemblemodellansichten. Das heißt, jede vertikale Linie hat acht Datenpunkte. Diese Punkte überlappen sich entweder perfekt oder sind in einem Bereich verteilt.

Die erste Grafik zeigt, dass sich bei den FPs die Wahrscheinlichkeit, positiv zu sein, zwischen 0,5 und 0,925 auf alle acht Modelle im Ensemble verteilt.


    FP-Diagramm aus Deep Learning-Fallstudie

In ähnlicher Weise zeigt das nächste Diagramm, dass sich die Wahrscheinlichkeit, negativ zu sein, bei den FNs zwischen 0,5 und 0,85 zwischen den acht Modellen im Ensemble verteilt wird.


    FN-Diagramm aus Deep Learning-Fallstudie

Definieren einer Entscheidungsregel

Um den Nutzen der Ergebnisse zu maximieren, verwenden wir die folgende Ensembleregel: Für jeden Input nehmen wir das Modell, das die niedrigste Wahrscheinlichkeit hat, positiv (akzeptabel) zu sein, um markante Entscheidungen zu treffen. Wenn die ausgewählte Wahrscheinlichkeit größer oder gleich dem Schwellenwert ist, markieren wir den Fall als akzeptabel und verarbeiten ihn automatisch. Andernfalls senden wir den Fall zur menschlichen Überprüfung. Dies ist eine konservative Entscheidungsregel, die in stark regulierten Umgebungen angemessen ist.

Evaluieren der Ergebnisse

Die folgende Grafik zeigt die Genauigkeit, den Rückruf und die automatische (Automatisierungs-) Rate für die negativen Fälle (Fälle mit grammatikalischen Fehlern). Die Automatisierungsrate bezieht sich auf den Prozentsatz der Fälle, die automatisch verarbeitet werden, da das Modell den Satz als akzeptabel kennzeichnet. Ein perfektes Modell mit 100% Rückruf und Präzision würde eine Automatisierungsrate von 69% (positive Fall/Gesamtfälle) erreichen, da nur positive Fälle automatisch verarbeitet werden.


    Präzision, Rückruf und automatische Rate für die negativen Fälle in der Fallstudie Deep Learning

Der Vergleich zwischen dem tiefen Ensemble und den naiven Fällen zeigt, dass der Rückruf bei derselben Schwellenwerteinstellung ziemlich drastisch zunimmt und die Genauigkeit leicht abnimmt. (Die Automatisierungsrate hängt vom positiven und negativen Stichprobenverhältnis im Test-Dataset ab.) z. B.:

  • Verwenden eines Schwellenwerts von 0,5:

    • Bei einem einzigen Modell beträgt der Rückruf für negative Fälle 52%.

    • Mit dem tiefen Ensemble-Ansatz wird der Rückrufwert 69% betragen.

  • Verwenden eines Schwellenwerts von 0,88:

    • Bei einem einzigen Modell wird der Rückruf für negative Fälle 87% betragen.

    • Mit dem tiefen Ensemble-Ansatz wird der Rückrufwert 94% betragen.

Sie können sehen, dass ein tiefes Ensemble bestimmte Metriken (in unserem Fall den Rückruf negativer Fälle) für Geschäftsanwendungen verbessern kann, ohne dass die Größe der Trainingsdaten, ihre Qualität oder eine Änderung der Methode des Modells erhöht werden muss.