Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Erstellen Sie eine CSV-Datei
Amazon Fraud Detector verlangt, dass die erste Zeile Ihrer CSV-Datei Spaltenüberschriften enthält. Die Spaltenüberschriften in Ihrer CSV-Datei müssen den Variablen zugeordnet sein, die im Ereignistyp definiert sind. Ein Beispieldatensatz finden Sie unter Holen Sie sich einen Beispieldatensatz und laden Sie
Das Modell Online Fraud Insights erfordert einen Trainingsdatensatz mit mindestens 2 Variablen und bis zu 100 Variablen. Zusätzlich zu den Ereignisvariablen muss der Trainingsdatensatz die folgenden Überschriften enthalten:
-
EVENT_TIMESTAMP — Definiert, wann das Ereignis eingetreten ist
-
EVENT_LABEL — Klassifiziert das Ereignis als betrügerisch oder legitim. Die Werte in der Spalte müssen den im Ereignistyp definierten Werten entsprechen.
Die folgenden CSV-Beispieldaten stellen historische Registrierungsereignisse eines Online-Händlers dar:
EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address 4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net 12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org 3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net 1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com 9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
Anmerkung
Die CSV-Datendatei kann doppelte Anführungszeichen und Kommas als Teil Ihrer Daten enthalten.
Eine vereinfachte Version des entsprechenden Ereignistyps ist unten dargestellt. Die Ereignisvariablen entsprechen den Headern in der CSV-Datei und die Werte in EVENT_LABEL
entsprechen den Werten in der Labelliste.
( name = 'sample_registration', eventVariables = ['ip_address', 'email_address'], labels = ['legit', 'fraud'], entityTypes = ['sample_customer'] )
Formate für Zeitstempel für Ereignisse
Stellen Sie sicher, dass Ihr Event-Zeitstempel das erforderliche Format hat. Im Rahmen der Modellerstellung ordnet der Modelltyp Online Fraud Insights Ihre Daten auf der Grundlage des Zeitstempels des Ereignisses und teilt Ihre Daten zu Schulungs- und Testzwecken auf. Um eine angemessene Schätzung der Leistung zu erhalten, trainiert das Modell zunächst anhand des Trainingsdatensatzes und testet dieses Modell anschließend mit dem Testdatensatz.
Amazon Fraud Detector unterstützt die folgenden Datums- und Zeitstempelformate für die Werte EVENT_TIMESTAMP
während des Modelltrainings:
%yyyy-%mm-%ddt%HH: %mm: %sSz (ISO 8601-Standard nur in UTC ohne Millisekunden)
Beispiel: 2019-11-30T 13:01:01 Z
-
%yyyy/%mm/%dd %hh: %mm: %ss (AM/PM)
Beispiele: 30.11.2019 13:01:01 Uhr oder 30.11.2019 13:01:01
%mm/%dd/%yyyy %hh: %mm: %ss
Beispiele: 30.11.2019 13:01:01 Uhr, 30.11.2019 13:01:01
%mm/%dd/%yy %hh: %mm: %ss
Beispiele: 30.11.19 13:01:01 Uhr, 30.11.19 13:01:01
Amazon Fraud Detector geht bei der Analyse von Datums- und Zeitstempelformaten für Ereigniszeitstempel von den folgenden Annahmen aus:
Wenn Sie den ISO 8601-Standard verwenden, muss dieser exakt mit der vorherigen Spezifikation übereinstimmen
Wenn Sie eines der anderen Formate verwenden, gibt es zusätzliche Flexibilität:
Für Monate und Tage können Sie ein- oder zweistellige Zahlen angeben. Beispielsweise ist der 12.01.2019 ein gültiges Datum.
Sie müssen hh:mm:ss nicht angeben, wenn Sie sie nicht haben (das heißt, Sie können einfach ein Datum angeben). Sie können auch nur eine Teilmenge von Stunden und Minuten angeben (z. B. hh:mm). Die bloße Angabe von Stunden wird nicht unterstützt. Millisekunden werden ebenfalls nicht unterstützt.
Wenn Sie AM/PM labels, a 12-hour clock is assumed. If there is no AM/PM Informationen angeben, wird von einer 24-Stunden-Uhrzeit ausgegangen.
Sie können „/“ oder „-“ als Trennzeichen für die Datumselemente verwenden. Für die Zeitstempelelemente wird „:“ vorausgesetzt.
Stichprobenahme Ihres Datensatzes im Laufe der Zeit
Wir empfehlen Ihnen, Beispiele für Betrug und legitime Stichproben aus demselben Zeitraum anzugeben. Wenn Sie beispielsweise Betrugsereignisse aus den letzten 6 Monaten angeben, sollten Sie auch legitime Ereignisse angeben, die sich gleichmäßig über denselben Zeitraum erstrecken. Wenn Ihr Datensatz eine sehr ungleichmäßige Verteilung von Betrugsfällen und legitimen Ereignissen enthält, erhalten Sie möglicherweise die folgende Fehlermeldung: „Die Betrugsverteilung im Zeitverlauf schwankt inakzeptabel. Der Datensatz kann nicht richtig aufgeteilt werden.“ In der Regel besteht die einfachste Lösung für diesen Fehler darin, sicherzustellen, dass Betrugsfälle und legitime Ereignisse gleichmäßig über denselben Zeitraum erfasst werden. Möglicherweise müssen Sie auch Daten entfernen, wenn Sie innerhalb eines kurzen Zeitraums einen starken Anstieg der Betrugsfälle festgestellt haben.
Wenn Sie nicht genügend Daten generieren können, um einen gleichmäßig verteilten Datensatz zu erstellen, besteht ein Ansatz darin, die EVENT_TIMESTAMP Ihrer Ereignisse nach dem Zufallsprinzip so zu ordnen, dass sie gleichmäßig verteilt sind. Dies führt jedoch häufig dazu, dass Leistungskennzahlen unrealistisch sind, da Amazon Fraud Detector EVENT_TIMESTAMP verwendet, um Modelle für die entsprechende Teilmenge von Ereignissen in Ihrem Datensatz auszuwerten.
Null und fehlende Werte
Amazon Fraud Detector verarbeitet Nullwerte und fehlende Werte. Der Prozentsatz von Nullen für Variablen sollte jedoch begrenzt werden. Die Spalten EVENT_TIMESTAMP und EVENT_LABEL sollten keine fehlenden Werte enthalten.
Überprüfung der Datei
Amazon Fraud Detector kann ein Modell nicht trainieren, wenn eine der folgenden Bedingungen ausgelöst wird:
-
Wenn die CSV-Datei nicht analysiert werden kann
-
Wenn der Datentyp für eine Spalte falsch ist