Création d'un fichier CSV - Amazon Fraud Detector

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Création d'un fichier CSV

Amazon Fraud Detector exige que la première ligne de votre fichier CSV contienne des en-têtes de colonne. Les en-têtes de colonne de votre fichier CSV doivent correspondre aux variables définies dans le type d'événement. Pour un exemple de jeu de données, voir Obtenir et télécharger un exemple de jeu de données

Le modèle Online Fraud Insights nécessite un ensemble de données de formation comportant au moins 2 variables et jusqu'à 100 variables. Outre les variables d'événement, le jeu de données d'entraînement doit contenir les en-têtes suivants :

  • EVENT_TIMESTAMP - Définit le moment où l'événement s'est produit

  • EVENT_LABEL : classe l'événement comme frauduleux ou légitime. Les valeurs de la colonne doivent correspondre aux valeurs définies dans le type d'événement.

Les exemples de données CSV suivants représentent l'historique des événements d'enregistrement d'un marchand en ligne :

EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address 4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net 12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org 3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net 1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com 9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
Note

Le fichier de données CSV peut contenir des guillemets et des virgules dans le cadre de vos données.

Une version simplifiée du type d'événement correspondant est représentée ci-dessous. Les variables d'événement correspondent aux en-têtes du fichier CSV et les valeurs EVENT_LABEL correspondent aux valeurs de la liste des étiquettes.

( name = 'sample_registration', eventVariables = ['ip_address', 'email_address'], labels = ['legit', 'fraud'], entityTypes = ['sample_customer'] )

Formats d'horodatage des événements

Assurez-vous que l'horodatage de votre événement est au format requis. Dans le cadre du processus de création du modèle, le type de modèle Online Fraud Insights classe vos données en fonction de l'horodatage de l'événement et les divise à des fins de formation et de test. Pour obtenir une estimation juste des performances, le modèle s'entraîne d'abord sur le jeu de données d'entraînement, puis teste ce modèle sur le jeu de données de test.

Amazon Fraud Detector prend en charge les formats de date/horodatage suivants pour les valeurs saisies lors de la formation des EVENT_TIMESTAMP modèles :

  • %YYYY-%MM-%DDT%HH : %mm : %sSz (norme ISO 8601 en UTC uniquement, sans millisecondes)

    Exemple : 2019-11-30T 13:01:01 Z

  • %yyyy/%mm/%dd %hh : %mm : %ss (AM/PM)

    Exemples : 2019/11/30 13:01:01 ou 2019/11/30 13:01:01

  • %mm/%dd/%yyyy %hh : %mm : %s

    Exemples : 30/11/2019 13:01:01, 30/11/2019 13:01:01

  • %mm/%dd/%yy %hh : %mm : %s

    Exemples : 30/11/19 13:01:01, 30/11/19 13:01:01

Amazon Fraud Detector part des hypothèses suivantes lors de l'analyse des formats de date/horodatage pour les horodatages d'événements :

  • Si vous utilisez la norme ISO 8601, elle doit correspondre exactement à la spécification précédente

  • Si vous utilisez l'un des autres formats, vous bénéficiez d'une flexibilité supplémentaire :

    • Pendant des mois et des jours, vous pouvez fournir un ou deux chiffres. Par exemple, le 1/12/2019 est une date valide.

    • Vous n'avez pas besoin d'inclure hh:mm:ss si vous ne les avez pas (vous pouvez simplement fournir une date). Vous pouvez également fournir un sous-ensemble des heures et des minutes uniquement (par exemple, hh:mm). Le simple fait de fournir une heure n'est pas pris en charge. Les millisecondes ne sont pas non plus prises en charge.

    • Si vous fournissez des AM/PM labels, a 12-hour clock is assumed. If there is no AM/PM informations, une horloge de 24 heures est supposée.

    • Vous pouvez utiliser «/» ou « - » comme délimiteurs pour les éléments de date. « : » est supposé pour les éléments d'horodatage.

Échantillonnage de votre ensemble de données au fil

Nous vous recommandons de fournir des exemples de fraude et des échantillons légitimes datant de la même période. Par exemple, si vous signalez des cas de fraude survenus au cours des 6 derniers mois, vous devez également indiquer des événements légitimes qui s'étendent uniformément sur la même période. Si votre ensemble de données contient une répartition très inégale des fraudes et des événements légitimes, le message d'erreur suivant peut s'afficher : « La répartition des fraudes dans le temps fluctue de manière inacceptable. Impossible de diviser correctement le jeu de données. » Généralement, la solution la plus simple à cette erreur consiste à s'assurer que les cas de fraude et les événements légitimes sont échantillonnés de manière uniforme sur la même période. Il se peut également que vous deviez supprimer des données si vous êtes confronté à une forte augmentation du nombre de fraudes en peu de temps.

Si vous ne pouvez pas générer suffisamment de données pour créer un ensemble de données distribué de manière uniforme, une approche consiste à randomiser l'EVENT_TIMESTAMP de vos événements afin qu'ils soient répartis de manière uniforme. Cependant, cela rend souvent les indicateurs de performance irréalistes, car Amazon Fraud Detector utilise EVENT_TIMESTAMP pour évaluer les modèles sur le sous-ensemble d'événements approprié dans votre ensemble de données.

Valeurs nulles et manquantes

Amazon Fraud Detector gère les valeurs nulles et manquantes. Cependant, le pourcentage de valeurs nulles pour les variables doit être limité. Les colonnes EVENT_TIMESTAMP et EVENT_LABEL ne doivent pas contenir de valeurs manquantes.

Validation des fichiers

Amazon Fraud Detector ne parviendra pas à entraîner un modèle si l'une des conditions suivantes se produit :

  • Si le CSV ne peut pas être analysé

  • Si le type de données d'une colonne est incorrect