Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Cree un archivo CSV
Amazon Fraud Detector requiere que la primera fila del archivo CSV contenga encabezados de columna. Los encabezados de las columnas del archivo CSV deben corresponder a las variables definidas en el tipo de evento. Para ver un conjunto de datos de ejemplo, consulte Obtenga y cargue un conjunto de datos de ejemplo
El modelo Online Fraud Insights requiere un conjunto de datos de capacitación que tenga al menos 2 variables y hasta 100 variables. Además de las variables del evento, el conjunto de datos de formación debe contener los siguientes encabezados:
-
EVENT_TIMESTAMP: define cuándo ocurrió el evento
-
EVENT_LABEL: clasifica el evento como fraudulento o legítimo. Los valores de la columna deben corresponder a los valores definidos en el tipo de evento.
Los siguientes ejemplos de datos CSV representan el historial de eventos de registro de un comerciante en línea:
EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address 4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net 12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org 3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net 1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com 9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
nota
El archivo de datos CSV puede contener comillas dobles y comas como parte de los datos.
A continuación se muestra una versión simplificada del tipo de evento correspondiente. Las variables de evento corresponden a los encabezados del archivo CSV y los valores EVENT_LABEL
corresponden a los valores de la lista de etiquetas.
( name = 'sample_registration', eventVariables = ['ip_address', 'email_address'], labels = ['legit', 'fraud'], entityTypes = ['sample_customer'] )
Formatos de marca temporal del evento
Asegúrese de que la marca de tiempo del evento esté en el formato requerido. Como parte del proceso de creación del modelo, el modelo Online Fraud Insights ordena los datos en función de la marca temporal del evento y los divide con fines de formación y pruebas. Para obtener una estimación justa del rendimiento, el modelo primero se entrena en el conjunto de datos de entrenamiento y, a continuación, prueba este modelo en el conjunto de datos de prueba.
Amazon Fraud Detector admite los siguientes formatos de fecha y hora para los valores introducidos durante la formación de modelos: EVENT_TIMESTAMP
%YYY-%MM-%DDT%HH: %mm: %sSz (estándar ISO 8601 solo en UTC, sin milisegundos)
Ejemplo: 2019-11-30T 13:01:01 Z
-
%aaay/%mm/%dd %hh: %mm: %ss (AM/PM)
Ejemplos: 30 de noviembre de 2019 a las 13:01:01 p. m., o 30 de noviembre de 2019 a las 13:01:01
%mm/%dd/%aaaa %hh: %mm: %ss
Ejemplos: 30/11/2019 13:01:01 p.m., 30/11/2019 13:01:01
%mm/%dd/%yy %hh: %mm: %ss
Ejemplos: 30/11/19 13:01:01 p. m., 30/11/19 13:01:01
Amazon Fraud Detector hace las siguientes suposiciones al analizar los formatos de fecha y hora de las marcas horarias de los eventos:
Si utiliza la norma ISO 8601, debe coincidir exactamente con la especificación anterior
Si utiliza uno de los otros formatos, hay flexibilidad adicional:
Para meses y días, puede proporcionar un dígito o doble dígito. Por ejemplo, el 1 de diciembre de 2019 es una fecha válida.
No necesitas incluir hh:mm:ss si no los tienes (es decir, puedes simplemente indicar una fecha). También puede proporcionar un subconjunto de solo la hora y los minutos (por ejemplo, hh:mm). No se admite el simple hecho de proporcionar una hora. Tampoco se admiten milisegundos.
Si proporciona AM/PM labels, a 12-hour clock is assumed. If there is no AM/PM información, se asume un reloj de 24 horas.
Puede utilizar «/» o «-» como delimitadores para los elementos de fecha. Se utiliza «:» para los elementos de marca de tiempo.
Muestreo de su conjunto de datos a lo largo
Te recomendamos que proporciones ejemplos de fraudes y muestras legítimas del mismo intervalo de tiempo. Por ejemplo, si proporciona eventos de fraude de los últimos 6 meses, también debe proporcionar eventos legítimos que abarquen de manera uniforme el mismo período de tiempo. Si tu conjunto de datos contiene una distribución muy desigual de fraudes y eventos legítimos, es posible que recibas el siguiente error: «La distribución del fraude a lo largo del tiempo es inaceptablemente fluctuante. No se puede dividir el conjunto de datos correctamente». Por lo general, la solución más sencilla para este error es garantizar que los eventos de fraude y los eventos legítimos se muestreen de manera uniforme en el mismo período de tiempo. Es posible que también tengas que eliminar los datos si has experimentado un gran aumento del fraude en un período breve.
Si no puedes generar suficientes datos para crear un conjunto de datos distribuido uniformemente, un enfoque consiste en aleatorizar el EVENT_TIMESTAMP de tus eventos de forma que se distribuyan uniformemente. Sin embargo, esto suele provocar que las métricas de rendimiento no sean realistas, ya que Amazon Fraud Detector utiliza EVENT_TIMESTAMP para evaluar los modelos en función del subconjunto de eventos correspondiente de su conjunto de datos.
Valores nulos y faltantes
Amazon Fraud Detector gestiona los valores nulos y faltantes. Sin embargo, el porcentaje de valores nulos de las variables debe ser limitado. Las columnas EVENT_TIMESTAMP y EVENT_LABEL no deben contener ningún valor faltante.
Validación de archivos
Amazon Fraud Detector no capacitará a un modelo si se produce alguna de las siguientes condiciones:
-
Si el CSV no se puede analizar
-
Si el tipo de datos de una columna es incorrecto