Ereignis-Dataset - Amazon Fraud Detector

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Ereignis-Dataset

Ein Ereignisdatensatz sind die historischen Betrugsdaten für Ihr Unternehmen. Sie stellen diese Daten Amazon Fraud Detector zur Verfügung, um Modelle zur Betrugserkennung zu erstellen.

Amazon Fraud Detector verwendet Modelle für maschinelles Lernen zur Generierung von Betrugsvorhersagen. Jedes Modell wird mit einem Modelltyp trainiert. Der Modelltyp spezifiziert die Algorithmen und Transformationen, die für das Training des Modells verwendet werden. Beim Modelltraining wird anhand eines von Ihnen bereitgestellten Datensatzes ein Modell erstellt, das betrügerische Ereignisse vorhersagen kann. Weitere Informationen finden Sie unter Die Funktionsweise von Amazon Fraud Detector

Der für die Erstellung eines Modells zur Betrugserkennung verwendete Datensatz enthält Details zu einem Ereignis. Ein Ereignis ist eine geschäftliche Aktivität, die auf Betrugsrisiken überprüft wird. Beispielsweise kann eine Kontoregistrierung ein Ereignis sein. Bei den mit dem Kontoregistrierungsereignis verknüpften Daten kann es sich um einen Ereignisdatensatz handeln. Amazon Fraud Detector verwendet diesen Datensatz, um Betrug bei der Kontoregistrierung zu bewerten.

Bevor Sie Ihren Datensatz Amazon Fraud Detector zur Erstellung eines Modells zur Verfügung stellen, stellen Sie sicher, dass Sie Ihr Ziel für die Erstellung des Modells definieren. Sie müssen außerdem festlegen, wie Sie das Modell verwenden möchten, und Ihre Kennzahlen definieren, um anhand Ihrer spezifischen Anforderungen zu bewerten, ob das Modell funktioniert.

Ihre Ziele für die Erstellung eines Modells zur Betrugserkennung, das Betrug bei der Kontoregistrierung bewertet, können beispielsweise die folgenden sein:

  • Um legitime Registrierungen automatisch zu genehmigen.

  • Um betrügerische Anmeldungen für eine spätere Untersuchung zu erfassen.

Nachdem Sie Ihr Ziel festgelegt haben, müssen Sie im nächsten Schritt entscheiden, wie Sie das Modell verwenden möchten. Im Folgenden finden Sie einige Beispiele für die Verwendung des Betrugserkennungsmodells zur Bewertung von Registrierungsbetrug:

  • Zur Betrugserkennung in Echtzeit für jede Kontoregistrierung.

  • Zur stündlichen Offline-Auswertung aller Kontoregistrierungen.

Einige Beispiele für Metriken, mit denen die Leistung des Modells gemessen werden kann, sind die folgenden:

  • Die Leistung ist durchweg besser als der aktuelle Ausgangswert in der Produktion.

  • Erfasst X% Betrugsregistrierungen mit einer Rate von Y% falsch positiven Ergebnissen.

  • Akzeptiert bis zu 5% der automatisch genehmigten betrügerischen Registrierungen.

Struktur von Ereignisdataset

Amazon Fraud Detector verlangt, dass Sie Ihren Ereignisdatensatz in einer Textdatei mit kommagetrennten Werten (CSV) im UTF-8-Format angeben. Die erste Zeile Ihrer CSV-Datensatzdatei muss Dateiüberschriften enthalten. Der Dateiheader besteht aus Ereignismetadaten und Ereignisvariablen, die jedes Datenelement beschreiben, das mit dem Ereignis verknüpft ist. Auf den Header folgen Ereignisdaten. Jede Zeile besteht aus Datenelementen eines einzelnen Ereignisses.

  • Ereignismetadaten — enthält Informationen über das Ereignis. Beispielsweise ist EVENT_TIMESTAMP ein Ereignismetadat, der den Zeitpunkt des Auftretens des Ereignisses angibt. Abhängig von Ihrem geschäftlichen Anwendungsfall und dem Modelltyp, der für die Erstellung und Schulung Ihres Betrugserkennungsmodells verwendet wird, verlangt Amazon Fraud Detector, dass Sie bestimmte Ereignismetadaten angeben. Verwenden Sie bei der Angabe von Ereignismetadaten in Ihrem CSV-Datei-Header denselben Event-Metadatennamen wie von Amazon Fraud Detector angegeben und verwenden Sie nur Großbuchstaben.

  • Ereignisvariable — stellt die für Ihr Ereignis spezifischen Datenelemente dar, die Sie für die Erstellung und das Training Ihres Betrugserkennungsmodells verwenden möchten. Abhängig von Ihrem geschäftlichen Anwendungsfall und dem Modelltyp, der für die Erstellung und Schulung eines Betrugserkennungsmodells verwendet wird, verlangt oder empfiehlt Amazon Fraud Detector möglicherweise, dass Sie bestimmte Ereignisvariablen angeben. Sie können optional auch andere Ereignisvariablen aus Ihrem Ereignis angeben, die Sie in das Training des Modells einbeziehen möchten. Einige Beispiele für Ereignisvariablen für eine Online-Registrierungsveranstaltung können E-Mail-Adresse, IP-Adresse und Telefonnummer sein. Wenn Sie den Namen der Ereignisvariablen in Ihrem CSV-Datei-Header angeben, verwenden Sie einen beliebigen Variablennamen Ihrer Wahl und verwenden Sie nur Kleinbuchstaben.

  • Ereignisdaten — stellen die Daten dar, die während des tatsächlichen Ereignisses gesammelt wurden. In Ihrer CSV-Datei besteht jede Zeile, die auf den Dateiheader folgt, aus Datenelementen eines einzelnen Ereignisses. In einer Eventdatendatei für die Online-Registrierung enthält beispielsweise jede Zeile Daten aus einer einzelnen Registrierung. Jedes Datenelement in der Zeile muss mit den entsprechenden Ereignismetadaten oder der Ereignisvariablen übereinstimmen.

Nachfolgend finden Sie ein Beispiel für eine CSV-Datei mit Daten aus einem Ereignis zur Kontoregistrierung. Die Kopfzeile enthält sowohl Ereignismetadaten in Großbuchstaben als auch Ereignisvariablen in Kleinbuchstaben, gefolgt von den Ereignisdaten. Jede Zeile im Datensatz enthält Datenelemente, die mit der Registrierung eines einzelnen Kontos verknüpft sind, wobei jedes Datenelement der Kopfzeile entspricht.

Rufen Sie die Anforderungen für Ereignisdatensätze mit dem Datenmodell-Explorer ab

Der Modelltyp, den Sie für die Erstellung Ihres Modells wählen, definiert die Anforderungen für Ihren Datensatz. Amazon Fraud Detector verwendet den von Ihnen bereitgestellten Datensatz, um Ihr Modell zur Betrugserkennung zu erstellen und zu trainieren. Bevor Amazon Fraud Detector mit der Erstellung Ihres Modells beginnt, prüft es, ob der Datensatz die Größe, das Format und andere Anforderungen erfüllt. Wenn der Datensatz die Anforderungen nicht erfüllt, schlagen die Modellerstellung und das Training fehl. Sie können den Datenmodell-Explorer verwenden, um einen Modelltyp zu identifizieren, der für Ihren geschäftlichen Anwendungsfall verwendet werden soll, und um Einblicke in die Datensatz-Anforderungen für den identifizierten Modelltyp zu erhalten.

Datenmodell-Explorer

Der Datenmodell-Explorer ist ein Tool in der Amazon Fraud Detector-Konsole, das Ihren Geschäftsanwendungsfall an den von Amazon Fraud Detector unterstützten Modelltyp anpasst. Der Datenmodell-Explorer bietet auch Einblicke in die Datenelemente, die Amazon Fraud Detector benötigt, um Ihr Modell zur Betrugserkennung zu erstellen. Bevor Sie mit der Vorbereitung Ihres Ereignisdatensatzes beginnen, verwenden Sie den Datenmodel-Explorer, um herauszufinden, welchen Modelltyp Amazon Fraud Detector für Ihre geschäftliche Verwendung empfiehlt. Außerdem erhalten Sie eine Liste der obligatorischen, empfohlenen und optionalen Datenelemente, die Sie für die Erstellung Ihres Datensatzes benötigen.

Um den Datenmodell-Explorer zu verwenden,
  1. Öffnen Sie die AWSManagement Console und melden Sie sich bei Ihrem Konto an. Navigieren Sie zu Amazon Fraud Detector.

  2. Wählen Sie im linken Navigationsbereich Data Models Explorer aus.

  3. Wählen Sie auf der Explorer-Seite für Datenmodelle unter Geschäftsanwendungsfall den Geschäftsanwendungsfall aus, den Sie im Hinblick auf das Betrugsrisiko bewerten möchten.

  4. Amazon Fraud Detector zeigt den empfohlenen Modelltyp an, der Ihrem Geschäftsanwendungsfall entspricht. Der Modelltyp definiert die Algorithmen, Anreicherungen und Transformationen, die Amazon Fraud Detector zum Trainieren Ihres Betrugserkennungsmodells verwendet.

    Notieren Sie sich den empfohlenen Modelltyp. Sie benötigen diesen später beim Erstellen Ihres Modells.

    Anmerkung

    Wenn Sie Ihren geschäftlichen Anwendungsfall nicht finden, verwenden Sie den Link „Kontaktieren Sie uns“ in der Beschreibung, um uns die Details Ihres geschäftlichen Anwendungsfalls mitzuteilen. Wir empfehlen Ihnen, welchen Modelltyp Sie für die Erstellung eines Betrugserkennungsmodells für Ihren Geschäftsanwendungsfall verwenden möchten.

  5. Der Bereich Datenmodellinformationen bietet einen Einblick in die obligatorischen, empfohlenen und optionalen Datenelemente, die erforderlich sind, um ein Betrugserkennungsmodell für Ihren Geschäftsanwendungsfall zu erstellen und zu trainieren. Verwenden Sie die Informationen im Bereich Einblicke, um Ihre Eventdaten zu sammeln und Ihren Datensatz zu erstellen.

Ereignisdaten sammeln

Das Erfassen Ihrer Eventdaten ist ein wichtiger Schritt bei der Erstellung Ihres Modells. Dies liegt daran, dass die Leistung Ihres Modells bei der Betrugsvorhersage von der Qualität Ihres Datensatzes abhängt. Denken Sie beim Sammeln Ihrer Ereignisdaten an die Liste der Datenelemente, die Ihnen der Datenmodell-Explorer zur Erstellung Ihres Datensatzes zur Verfügung gestellt hat. Sie müssen alle obligatorischen Daten (Ereignismetadaten) sammeln und entscheiden, welche empfohlenen und optionalen Datenelemente (Ereignisvariablen) enthalten sein sollen, basierend auf Ihren Zielen für die Erstellung des Modells. Es ist auch wichtig, das Format jeder Ereignisvariablen, die Sie einbeziehen möchten, und die Gesamtgröße Ihres Datensatzes festzulegen.

Qualität des Event-Datensatzes

Es wird Folgendes empfohlen, um qualitativ hochwertige Datensätze für Ihr Modell zu erstellen:

  • Erfassung ausgereifter Daten — Die Verwendung der neuesten Daten hilft dabei, das neueste Betrugsmuster zu identifizieren. Lassen Sie die Daten jedoch reifen, um Betrugsfälle zu erkennen. Die Laufzeit hängt von Ihrem Unternehmen ab und kann zwischen zwei Wochen und drei Monaten dauern. Wenn Ihr Ereignis beispielsweise eine Kreditkartentransaktion beinhaltet, kann der Reifegrad der Daten durch die Rückbuchungsfrist der Kreditkarte oder die Zeit bestimmt werden, die ein Prüfer benötigt, um eine Entscheidung zu treffen.

    Stellen Sie sicher, dass der Datensatz, der zum Trainieren des Modells verwendet wurde, ausreichend Zeit hatte, um gemäß Ihrem Unternehmen zu reifen.

  • Stellen Sie sicher, dass die Datenverteilung nicht signifikant abweicht. Amazon Fraud Detector modelliert Muster für Trainingsprozesse und partitioniert Ihren Datensatz auf der Grundlage von EVENT_TIMESTAMP. Wenn Ihr Datensatz beispielsweise aus Betrugsfällen der letzten 6 Monate besteht, aber nur die legitimen Ereignisse des letzten Monats enthalten sind, gilt die Datenverteilung als uneinheitlich und instabil. Ein instabiler Datensatz kann zu Verzerrungen bei der Bewertung der Modellleistung führen. Wenn Sie feststellen, dass die Datenverteilung erheblich abweicht, sollten Sie erwägen, Ihren Datensatz auszugleichen, indem Sie Daten sammeln, die der aktuellen Datenverteilung ähneln.

  • Stellen Sie sicher, dass der Datensatz für den Anwendungsfall repräsentativ ist, in dem das Modell implementiert/getestet wird. Andernfalls könnte die geschätzte Leistung verzerrt sein. Nehmen wir an, Sie verwenden ein Modell, mit dem automatisch alle internen Bewerber abgelehnt werden, Ihr Modell wird jedoch mit einem Datensatz trainiert, der historische Daten/Bezeichnungen enthält, die zuvor genehmigt wurden. Dann ist die Bewertung Ihres Modells möglicherweise ungenau, da die Bewertung auf dem Datensatz basiert, der keine Repräsentationen von abgelehnten Bewerbern enthält.

Format der Veranstaltungsdaten

Amazon Fraud Detector wandelt die meisten Ihrer Daten im Rahmen seines Modelltrainingsprozesses in das erforderliche Format um. Es gibt jedoch einige Standardformate, die Sie problemlos für die Bereitstellung Ihrer Daten verwenden können, um später Probleme zu vermeiden, wenn Amazon Fraud Detector Ihren Datensatz validiert. Die folgende Tabelle enthält Hinweise zu den Formaten für die Bereitstellung der empfohlenen Ereignismetadaten.

Anmerkung

Achten Sie beim Erstellen Ihrer CSV-Datei darauf, den Namen der Veranstaltungsmetadaten wie unten aufgeführt in Großbuchstaben einzugeben.

Name der Metadaten Format Erforderlich

EVENT_ID

Wenn es bereitgestellt wird, muss es die folgenden Anforderungen erfüllen:

  • Es ist einzigartig für diese Veranstaltung.

  • Es stellt Informationen dar, die für Ihr Unternehmen von Bedeutung sind.

  • Es folgt dem regulären Ausdrucksmuster (zum Beispiel^[0-9a-z_-]+$.)

  • Zusätzlich zu den oben genannten Anforderungen empfehlen wir, dass Sie der EVENT_ID keinen Zeitstempel anhängen. Dies kann zu Problemen führen, wenn Sie das Ereignis aktualisieren. Dies liegt daran, dass Sie in diesem Fall genau dieselbe EVENT_ID angeben müssen.

Hängt vom Modelltyp ab

ZEITSTEMPEL DES EREIGNISSES

  • Sie muss in einem der folgenden Formate angegeben werden:

    • %yyyy-%mm-%ddt%HH: %mm: %ssZ (ISO 8601-Standard in UTC nur ohne Millisekunden)

      Beispiel: 2019-11-30T 13:01:01 Z

    • %yyyy/%mm/%dd %hh: %mm: %ss (vormittag/nachmittags)

      Beispiele: 30.11.2019 13:01:01 Uhr oder 30.11.2019 13:01:01

    • %mm/%dd/%yyyy %hh: %mm: %ss

      Beispiele: 30.11.2019 13:01:01 Uhr, 30.11.2019 13:01:01

    • %mm/%dd/%yy %hh: %mm: %ss

      Beispiele: 30.11.19 13:01:01 PM, 30.11.19 13:01:01

  • Amazon Fraud Detector geht beim Analysieren von Datums-/Zeitstempelformaten nach Ereigniszeitstempeln von folgenden Annahmen aus:

    • Wenn Sie den ISO 8601-Standard verwenden, muss dieser exakt mit der vorherigen Spezifikation übereinstimmen

    • Wenn Sie eines der anderen Formate verwenden, gibt es zusätzliche Flexibilität:

      • Für Monate und Tage können Sie einstellige oder zweistellige Zahlen angeben. Beispielsweise ist der 12.01.2019 ein gültiges Datum.

      • Sie müssen hh:mm:ss nicht angeben, wenn Sie sie nicht haben (das heißt, Sie können einfach ein Datum angeben). Sie können auch nur eine Teilmenge von Stunde und Minuten angeben (z. B. hh:mm). Die bloße Angabe der Stunde wird nicht unterstützt. Millisekunden werden ebenfalls nicht unterstützt.

      • Wenn Sie AM/PM-Etiketten angeben, wird von einer 12-Stunden-Uhr ausgegangen. Wenn keine AM/PM-Informationen vorliegen, wird von einer 24-Stunden-Uhr ausgegangen.

      • Sie können „/“ oder „-“ als Trennzeichen für die Datumselemente verwenden. „:“ wird für die Zeitstempelelemente vorausgesetzt.

Ja

ENTITY_ID

  • Es muss dem regulären Ausdrucksmuster folgen:^[0-9A-Za-z_.@+-]+$.

  • Wenn die Entitäts-ID zum Zeitpunkt der Auswertung nicht verfügbar ist, geben Sie die Entitäts-ID als unbekannt an.

Hängt vom Modelltyp ab

ENTITÄTSTYP

Sie können eine beliebige Zeichenfolge verwenden

Hängt vom Modelltyp ab

BEZEICHNUNG DES EREIGNISSES

Sie können beliebige Bezeichnungen verwenden, z. B. „Betrug“, „legitim“, „1" oder „0".

Erforderlich, wenn LABEL_TIMESTAMP enthalten ist

LABEL_TIMESTAMP

Es muss dem Zeitstempelformat folgen.

Erforderlich, wenn EVENT_LABEL enthalten ist

Hinweise zu Ereignisvariablen finden Sie unter Variablen.

Wichtig

Wenn Sie ein Account Takeover Insights (ATI) -Modell erstellen, finden Sie weitere InformationenVorbereiten von Daten zur Vorbereitung und Auswahl von Daten unter.

Null oder fehlende Werte

Die Variablen EVENT_TIMESTAMP und EVENT_LABEL dürfen keine Nullwerte oder fehlende Werte enthalten. Sie können Nullwerte oder fehlende Werte für andere Variablen haben. Wir empfehlen jedoch, nur eine kleine Anzahl von Nullen für diese Variablen für diese Variablen zu verwenden. Wenn Amazon Fraud Detector feststellt, dass zu viele Nullwerte oder fehlende Werte für eine Ereignisvariable vorhanden sind, wird die Variable automatisch aus Ihrem Modell weggelassen.

Minimale Variablen

Wenn Sie Ihr Modell erstellen, muss der Datensatz zusätzlich zu den erforderlichen Ereignismetadaten mindestens zwei Ereignisvariablen enthalten. Die beiden Ereignisvariablen müssen die Validierungsprüfung bestehen.

Größe des Event-Datensatzes

Erforderlich

Ihr Datensatz muss die folgenden grundlegenden Anforderungen für ein erfolgreiches Modelltraining erfüllen.

  • Daten von mindestens 100 Ereignissen.

  • Der Datensatz muss mindestens 50 Ereignisse (Zeilen) enthalten, die als betrügerisch eingestuft wurden.

Empfohlen

Für ein erfolgreiches Modelltraining und eine gute Modellleistung empfehlen wir, dass Ihr Datensatz Folgendes enthält.

  • Schließen Sie mindestens drei Wochen an historischen Daten ein, bestenfalls jedoch Daten für sechs Monate.

  • Schließen Sie insgesamt mindestens 10.000 Ereignisdaten ein.

  • Schließen Sie mindestens 400 Ereignisse (Zeilen) ein, die als betrügerisch eingestuft wurden, und 400 Ereignisse (Zeilen), die als legitim eingestuft wurden.

  • Schließen Sie mehr als 100 eindeutige Entitäten ein, wenn Ihr Modelltyp ENTITY_ID erfordert.

Datensatzvalidierung

Bevor Amazon Fraud Detector mit der Erstellung Ihres Modells beginnt, prüft es, ob die im Datensatz für das Training des Modells enthaltenen Variablen die Größe, das Format und andere Anforderungen erfüllen. Wenn der Datensatz die Validierung nicht besteht, wird kein Modell erstellt. Sie müssen zuerst die Variablen korrigieren, die die Validierung nicht bestanden haben, bevor Sie das Modell erstellen. Amazon Fraud Detector bietet Ihnen einen Datenprofiler, mit dem Sie Probleme mit Ihrem Datensatz identifizieren und beheben können, bevor Sie mit dem Training Ihres Modells beginnen.

Datenprofiler

Amazon Fraud Detector bietet ein Open-Source-Tool für die Erstellung von Profilen und die Vorbereitung Ihrer Daten für das Modelltraining. Mit diesem automatisierten Datenprofiler können Sie häufige Fehler bei der Datenvorbereitung vermeiden und potenzielle Probleme wie falsch zugeordnete Variablentypen identifizieren, die sich negativ auf die Modellleistung auswirken würden. Der Profiler generiert einen intuitiven und umfassenden Bericht über Ihren Datensatz, einschließlich Variablenstatistiken, Labelverteilung, kategorialer und numerischer Analysen sowie Variablen- und Labelkorrelationen. Es enthält Anleitungen zu Variablentypen sowie eine Option zur Umwandlung des Datensatzes in ein Format, das Amazon Fraud Detector benötigt.

Datenprofiler verwenden

Der automatisierte Datenprofiler besteht aus einemAWS CloudFormation Stack, den Sie mit wenigen Klicks einfach starten können. Alle Codes sind auf Github verfügbar. Informationen zur Verwendung von Data Profiler finden Sie in unserem Blog Train models faster with an automated data profiler for Amazon Fraud Detector.

Häufige Fehler im Ereignisdatensatz

Im Folgenden sind einige der häufigsten Probleme aufgeführt, auf die Amazon Fraud Detector bei der Validierung eines Ereignisdatensatzes stößt. Nachdem Sie den Datenprofiler ausgeführt haben, verwenden Sie diese Liste, um Ihren Datensatz auf Fehler zu überprüfen, bevor Sie Ihr Modell erstellen.

  • Die CSV-Datei hat nicht das Format UTF-8.

  • Die Anzahl der Ereignisse im Datensatz beträgt weniger als 100.

  • Die Anzahl der als betrügerisch oder legitim identifizierten Ereignisse liegt unter 50.

  • Die Anzahl der eindeutigen Entitäten, die einem Betrugsereignis zugeordnet sind, beträgt weniger als 100.

  • Mehr als 0,1% der Werte in EVENT_TIMESTAMP enthalten Nullen oder andere Werte als die unterstützten Datums-/Uhrzeitstempelformate.

  • Mehr als 1% der Werte in EVENT_LABEL enthalten Nullen oder Werte, die nicht im Ereignistyp definiert sind.

  • Für das Modelltraining stehen weniger als zwei Variablen zur Verfügung.

Datensatzspeicher

Nachdem Sie Ihren Dataset gesammelt haben, speichern Sie ihn intern mit Amazon Fraud Detector oder extern mit Amazon Simple Storage Service (Amazon S3) -Dataset mit Amazon Fraud Detector oder extern mit Amazon Simple Storage Service (Amazon S3) Wir empfehlen Ihnen, anhand des Modells, das Sie für die Generierung von Betrugsprognosen verwenden, auszuwählen, wo Ihr Datensatz gespeichert werden soll. Weitere Informationen zu Modelltypen finden Sie unter Wählen eines Modelltyps. Weitere Informationen zum Speichern Ihres Datensatzes finden Sie unterSpeicherung der Ereignisdaten.