Wichtigkeit von Modellvariablen - Amazon Fraud Detector

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Wichtigkeit von Modellvariablen

Die Wichtigkeit von Modellvariablen ist ein Feature von Amazon Fraud Detector, das Modellvariablen innerhalb einer Modellversion einstuft. Jede Modellvariable erhält einen Wert, der auf ihrer relativen Bedeutung für die Gesamtleistung Ihres Modells basiert. Die Modellvariable mit dem höchsten Wert ist für das Modell wichtiger als die anderen Modellvariablen im Datensatz für diese Modellversion und wird standardmäßig oben aufgeführt. Ebenso wird die Modellvariable mit dem niedrigsten Wert standardmäßig unten aufgeführt und ist im Vergleich zu den anderen Modellvariablen am wenigsten wichtig. Mithilfe der Werte für die Wichtigkeit von Modellvariablen können Sie einen Einblick in die Eingaben erhalten, die die Leistung Ihres Modells beeinflussen.

Sie können die Werte für die Wichtigkeit von Modellvariablen für Ihre trainierte Modellversion in der Amazon Fraud Detector-Konsole oder mithilfe der DescribeModelVersion API anzeigen.

Die Wichtigkeit von Modellvariablen bietet die folgenden Werte für jede Variable, die zum Trainieren der Modellversion verwendet wird.

  • Variablentyp : Typ der Variablen (z. B. IP-Adresse oder E-Mail). Weitere Informationen finden Sie unter Variablentypen. Für Modelle von Account Takeover Insights (ATI) bietet Amazon Fraud Detector einen Wert mit variabler Bedeutung sowohl für den Roh- als auch für den Aggregatvariablentyp. Rohvariablentypen werden den von Ihnen bereitgestellten Variablen zugewiesen. Der aggregierte Variablentyp wird einer Reihe von Rohvariablen zugewiesen, die Amazon Fraud Detector kombiniert hat, um einen aggregierten Wichtigkeitswert zu berechnen.

  • Variablenname : Name der Ereignisvariable, die zum Trainieren der Modellversion verwendet wurde (z. B. ip_address, email_address, are_creadentials_valid). Für den aggregierten Variablentyp werden die Namen aller Variablen aufgeführt, die zur Berechnung des aggregierten Werts für die Bedeutung der Variablen verwendet wurden.

  • Variable Importance Value: Eine Zahl, die die relative Bedeutung der Roh- oder Aggregatvariable für die Leistung des Modells darstellt. Typischer Bereich: 0–10

In der Amazon Fraud Detector-Konsole werden die Werte für die Wichtigkeit der Modellvariablen wie folgt für ein Online Fraud Insights (OFI)- oder ein Transaction Fraud Insights (TFI)-Modell angezeigt. Ein ATI-Modell (Account Takeover Insight) stellt zusätzlich zu den Wichtigkeitswerten der Rohvariablen aggregierte Werte für die Bedeutung von Variablen bereit. Das visuelle Diagramm macht es einfach, die relative Bedeutung zwischen Variablen mit der vertikalen gepunkteten Linie zu sehen, die Verweis auf den Wichtigkeitswert der am höchsten eingestuften Variablen bietet.

Diagramm zur Wichtigkeit von Modellvariablen.

Amazon Fraud Detector generiert Werte mit variabler Bedeutung für jede Fraud-Detector-Modellversion ohne zusätzliche Kosten.

Wichtig

Modellversionen, die vor dem 9. Juli 2021 erstellt wurden, haben keine Werte mit variabler Bedeutung. Sie müssen eine neue Version Ihres Modells trainieren, um die Wichtigkeitswerte der Modellvariablen zu generieren.

Verwenden von Werten für die Wichtigkeit von Modellvariablen

Sie können Werte für die Wichtigkeit von Modellvariablen verwenden, um einen Einblick in die Leistung Ihres Modells zu erhalten, die die Leistung Ihres Modells erhöht oder verringert und welche Variablen am meisten beitragen. Passen Sie dann Ihr Modell an, um die Gesamtleistung zu verbessern.

Um die Leistung Ihres Modells zu verbessern, sollten Sie insbesondere die Werte der variablen Wichtigkeit anhand Ihres Domainwissens untersuchen und Probleme in den Trainingsdaten debuggen. Wenn beispielsweise die Konto-ID als Eingabe für das Modell verwendet wurde und sie oben aufgeführt ist, werfen Sie einen Blick auf den Wert der variablen Wichtigkeit. Wenn der Wert der variablen Wichtigkeit deutlich höher ist als die restlichen Werte, könnte Ihr Modell ein bestimmtes Betrugsmuster überschneiden (z. B. stammen alle Betrugsereignisse von derselben Konto-ID). Es könnte jedoch auch der Fall sein, dass es zu einer Kennzeichnungsleckage kommt, wenn die Variable von den Betrugsbezeichnungen abhängt. Abhängig vom Ergebnis Ihrer Analyse auf der Grundlage Ihrer Domainkenntnisse möchten Sie möglicherweise die Variable entfernen und mit einem breiteren Datensatz trainieren oder das Modell unverändert lassen.

Betrachten Sie in ähnlicher Weise die Variablen, die an letzter Stelle stehen. Wenn der Wert für die variable Wichtigkeit deutlich niedriger ist als der Rest der Werte, hat diese Modellvariable möglicherweise keine Bedeutung für das Training Ihres Modells. Sie könnten erwägen, die Variable zu entfernen, um eine einfachere Modellversion zu trainieren. Wenn Ihr Modell nur wenige Variablen hat, z. B. nur zwei Variablen, stellt Amazon Fraud Detector weiterhin die Werte für die variable Wichtigkeit bereit und ordnet die Variablen zu. Die Erkenntnisse in diesem Fall sind jedoch begrenzt.

Wichtig
  1. Wenn Sie feststellen, dass Variablen im Diagramm zur Wichtigkeit von Modellvariablen fehlen, kann dies einen der folgenden Gründe haben. Erwägen Sie, die Variable in Ihrem Datensatz zu ändern und Ihr Modell neu zu trainieren.

    • Die Anzahl der eindeutigen Werte für die Variable im Trainingsdatensatz ist niedriger als 100.

    • Größer als 0,9 der Werte für die Variable fehlen im Trainingsdatensatz.

  2. Sie müssen jedes Mal eine neue Modellversion trainieren, wenn Sie die Eingabevariablen Ihres Modells anpassen möchten.

Auswerten der Wichtigkeitswerte von Modellvariablen

Wir empfehlen Ihnen, Folgendes zu berücksichtigen, wenn Sie die Wichtigkeitswerte von Modellvariablen bewerten:

  • Werte mit variabler Bedeutung müssen immer in Kombination mit dem Domainwissen ausgewertet werden.

  • Untersuchen Sie den Wert der Variablenbedeutung einer Variablen relativ zum Wert der Variablenbedeutung der anderen Variablen innerhalb der Modellversion. Berücksichtigen Sie nicht den Wert der variablen Wichtigkeit für eine einzelne Variable unabhängig.

  • Vergleichen Sie die Werte der Variablenbedeutung innerhalb derselben Modellversion. Vergleichen Sie nicht die Werte der Variablenbedeutung derselben Variablen über Modellversionen hinweg, da sich der Wert der Variablenbedeutung einer Variablen in einer Modellversion vom Wert derselben Variablen in einer anderen Modellversion unterscheiden kann. Wenn Sie dieselben Variablen und denselben Datensatz verwenden, um verschiedene Modellversionen zu trainieren, generiert dies nicht unbedingt dieselben Werte für die variable Wichtigkeit.

Anzeigen der Rangfolge der Wichtigkeit von Modellvariablen

Nachdem das Modelltraining abgeschlossen ist, können Sie die Rangfolge der Wichtigkeit von Modellvariablen Ihrer trainierten Modellversion in der Amazon Fraud Detector-Konsole oder mithilfe der DescribeModelVersion API anzeigen.

Um die Rangfolge der Wichtigkeit von Modellvariablen mithilfe der Konsole anzuzeigen,
  1. Öffnen Sie die -AWSKonsole und melden Sie sich bei Ihrem -Konto an. Navigieren Sie zu Amazon Fraud Detector.

  2. Wählen Sie im linken Navigationsbereich Models (Modelle) aus.

  3. Wählen Sie Ihr Modell und dann Ihre Modellversion aus.

  4. Stellen Sie sicher, dass die Registerkarte Übersicht ausgewählt ist.

  5. Scrollen Sie nach unten, um den Bereich Wichtigkeit der Modellvariablen anzuzeigen.

Verstehen, wie der Wert für die Wichtigkeit der Modellvariablen berechnet wird

Nach Abschluss jedes Trainings der Modellversion generiert Amazon Fraud Detector automatisch Werte für die Wichtigkeit von Modellvariablen und die Leistungsmetriken des Modells. Dazu verwendet Amazon Fraud Detector SHapleye exPlanations (SHAP ). SHAP ist im Wesentlichen der durchschnittliche erwartete Beitrag einer Modellvariable, nachdem alle möglichen Kombinationen aller Modellvariablen berücksichtigt wurden.

SHAP weist zunächst den Beitrag jeder Modellvariable zur Vorhersage eines Ereignisses zu. Anschließend werden diese Vorhersagen aggregiert, um eine Rangfolge der Variablen auf Modellebene zu erstellen. Um Beiträge jeder Modellvariable für eine Vorhersage zuzuweisen, berücksichtigt SHAP Unterschiede bei den Modellausgaben zwischen allen möglichen Variablenkombinationen. Indem SHAP alle Möglichkeiten zum Einschließen oder Entfernen bestimmter Variablen zur Generierung einer Modellausgabe einschließt, kann es genau auf die Bedeutung jeder Modellvariable zugreifen. Dies ist besonders wichtig, wenn die Modellvariablen stark miteinander korreliert sind.

ML-Modelle erlauben es Ihnen in den meisten Fällen nicht, Variablen zu entfernen. Sie können stattdessen eine entfernte oder fehlende Variable im Modell durch die entsprechenden Variablenwerte aus einer oder mehreren Baselines ersetzen (z. B. Ereignisse, die nicht von betrügerisch sind). Die Auswahl richtiger Basis-Instances kann schwierig sein, aber Amazon Fraud Detector erleichtert dies, indem diese Basislinie als Populationsdurchschnitt für Sie festgelegt wird.