Conjunto de datos de eventos - Amazon Fraud Detector

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Conjunto de datos de eventos

Un conjunto de datos de eventos es el historial de fraude de su empresa. Usted proporciona estos datos a Amazon Fraud Detector para crear modelos de detección de fraudes.

Amazon Fraud Detector utiliza modelos de aprendizaje automático para generar predicciones de fraude. Cada modelo se entrena con un tipo de modelo. El tipo de modelo especifica los algoritmos y las transformaciones que se utilizan para entrenar el modelo. El entrenamiento con modelos es el proceso de utilizar un conjunto de datos que usted proporciona para crear un modelo que pueda predecir eventos fraudulentos. Para obtener más información, consulte Cómo funciona Amazon Fraud Detector.

El conjunto de datos utilizado para crear el modelo de detección de fraudes proporciona detalles de un evento. Un evento es una actividad empresarial que se evalúa para detectar el riesgo de fraude. Por ejemplo, el registro de una cuenta puede ser un evento. Los datos asociados al evento de registro de la cuenta pueden ser un conjunto de datos de eventos. Amazon Fraud Detector utiliza este conjunto de datos para evaluar el fraude en el registro de cuentas.

Antes de proporcionar su conjunto de datos a Amazon Fraud Detector para crear un modelo, asegúrese de definir su objetivo para crear el modelo. También debe determinar cómo desea utilizar el modelo y definir sus métricas para evaluar si el modelo funciona en función de sus requisitos específicos.

Por ejemplo, sus objetivos para crear un modelo de detección de fraudes que evalúe el fraude en el registro de cuentas pueden ser los siguientes:

  • Para aprobar automáticamente los registros legítimos.

  • Capturar registros fraudulentos para su posterior investigación.

Una vez que haya determinado su objetivo, el siguiente paso es decidir cómo desea utilizar el modelo. Algunos ejemplos de uso del modelo de detección de fraudes para evaluar el fraude de registro son los siguientes:

  • Para detectar fraudes en tiempo real para cada registro de cuenta.

  • Para evaluar sin conexión todos los registros de cuentas cada hora.

Algunos ejemplos de métricas que se pueden utilizar para medir el rendimiento del modelo son los siguientes:

  • Su rendimiento es consistentemente mejor que el valor base actual en producción.

  • Captura el X% de registros fraudulentos con una tasa de falsos positivos del Y%.

  • Acepta hasta un 5% de los registros fraudulentos con aprobación automática.

Estructura de conjunto de datos de eventos

Amazon Fraud Detector requiere que proporcione su conjunto de datos de eventos en un archivo de texto con valores separados por comas (CSV) en formato UTF-8. La primera línea del archivo de conjunto de datos CSV debe contener los encabezados de los archivos. El encabezado del archivo se compone de metadatos de eventos y variables de eventos que describen cada elemento de datos asociado al evento. El encabezado va seguido de los datos del evento. Cada línea se compone de elementos de datos de un solo evento.

  • Metadatos del evento: proporcionan información sobre el evento. Por ejemplo, EVENT_TIMESTAMP es un metadato de evento que especifica la hora en que se produjo el evento. Dependiendo de su caso de uso empresarial y del tipo de modelo utilizado para crear y entrenar su modelo de detección de fraudes, Amazon Fraud Detector requiere que proporcione metadatos de eventos específicos. Al especificar los metadatos de eventos en el encabezado del archivo CSV, utilice el mismo nombre de metadatos de eventos que el especificado por Amazon Fraud Detector y utilice únicamente mayúsculas.

  • Variable de evento: representa los elementos de datos específicos de su evento y que desea utilizar para crear y entrenar su modelo de detección de fraudes. En función de su caso de uso empresarial y del tipo de modelo utilizado para crear y entrenar un modelo de detección de fraudes, Amazon Fraud Detector puede solicitar o recomendar que proporcione variables de eventos específicas. También puede proporcionar opcionalmente otras variables de evento de su evento que desee incluir en el entrenamiento del modelo. Algunos ejemplos de variables de eventos para un evento de registro en línea pueden ser la dirección de correo electrónico, la dirección IP y el número de teléfono. Al especificar el nombre de la variable de evento en el encabezado del archivo CSV, utilice cualquier nombre de variable de su elección y utilice solo letras minúsculas.

  • Datos del evento: representan los datos recopilados del evento real. En el archivo CSV, cada fila que sigue al encabezado del archivo consta de elementos de datos de un solo evento. Por ejemplo, en un archivo de datos de eventos de registro en línea, cada fila contiene datos de un solo registro. Cada elemento de datos de la fila debe coincidir con los metadatos de eventos correspondientes o con la variable de evento.

A continuación se muestra un ejemplo de un archivo de un archivo de un evento de registro de una cuenta. La fila del encabezado contiene los metadatos del evento en mayúsculas y las variables de eventos en minúsculas, seguidas de los datos del evento. Cada fila del conjunto de datos contiene elementos de datos asociados al registro de una sola cuenta y cada elemento de datos se corresponde con el encabezado.

CSV file showing event metadata and variables with sample data for account registration events.

Obtenga los requisitos del conjunto de datos de eventos mediante el explorador de modelos de datos

El tipo de modelo que elija para crear el modelo define los requisitos del conjunto de datos. Amazon Fraud Detector utiliza el conjunto de datos que usted proporciona para crear y entrenar su modelo de detección de fraudes. Antes de que Amazon Fraud Detector comience a crear el modelo, comprueba si el conjunto de datos cumple los requisitos de tamaño, formato y otros requisitos. Si el conjunto de datos no cumple con los requisitos, se produce un error en la creación del modelo y en el entrenamiento. Puede utilizar el explorador de modelos de datos para identificar un tipo de modelo que pueda utilizar en su caso práctico empresarial y obtener información sobre los requisitos del conjunto de datos para el tipo de modelo identificado.

Explorador de modelos de datos.

El explorador de modelos de datos es una herramienta de la consola de Amazon Fraud Detector que alinea su caso de uso empresarial con el tipo de modelo admitido por Amazon Fraud Detector. El explorador de modelos de datos también proporciona información sobre los elementos de datos que Amazon Fraud Detector necesita para crear su modelo de detección de fraudes. Antes de empezar a preparar el conjunto de datos de eventos, utilice el explorador de modelos de datos para averiguar el tipo de modelo que Amazon Fraud Detector recomienda para su uso empresarial y también para ver una lista de los elementos de datos obligatorios, recomendados y opcionales que necesitará para crear su conjunto de datos.

Para usar el explorador de modelos de datos,
  1. Abre la consolaAWS de administración e inicia sesión en tu cuenta. Navegue hasta Amazon Fraud Detector.

  2. En el panel de navegación de la izquierda, elija Explorador de modelos de datos.

  3. En la página del explorador de modelos de datos, en Caso de uso empresarial, seleccione el caso de uso empresarial que desee evaluar para determinar el riesgo de fraude.

  4. Amazon Fraud Detector muestra el tipo de modelo recomendado que coincide con su caso de uso empresarial. El tipo de modelo define los algoritmos, los enriquecimientos y las transformaciones que Amazon Fraud Detector utilizará para entrenar su modelo de detección de fraudes.

    Anote el tipo de modelo recomendado. Lo necesitará más adelante cuando cree su modelo.

    nota

    Si no encuentra su caso de uso empresarial, utilice el enlace Comuníquese con nosotros que aparece en la descripción para proporcionarnos los detalles de su caso de uso empresarial. Le recomendaremos el tipo de modelo que debe utilizar para crear un modelo de detección de fraudes para su caso de uso empresarial.

  5. El panel de información del modelo de datos proporciona información sobre los elementos de datos obligatorios, recomendados y opcionales necesarios para crear y entrenar un modelo de detección de fraudes para su caso de uso empresarial. Utilice la información del panel de información para recopilar los datos de sus eventos y crear su conjunto de datos.

Recopila datos de eventos

La recopilación de los datos de su evento es un paso importante para crear su modelo. Esto se debe a que el rendimiento de su modelo para predecir el fraude depende de la calidad del conjunto de datos. Cuando comience a recopilar los datos de sus eventos, tenga en cuenta la lista de elementos de datos que el explorador de modelos de datos le proporcionó para crear su conjunto de datos. Deberá recopilar todos los datos obligatorios (metadatos de eventos) y decidir qué elementos de datos recomendados y opcionales (variables de eventos) incluir en función de sus objetivos para crear el modelo. También es importante decidir el formato de cada variable de evento que pretendes incluir y el tamaño total del conjunto de datos.

Calidad del conjunto de datos de eventos

Para recopilar un conjunto de datos de alta calidad para su modelo, recomendamos lo siguiente:

  • Recopile datos maduros: el uso de los datos más recientes ayuda a identificar el patrón de fraude más reciente. Sin embargo, para detectar casos de uso fraudulento, deje que los datos maduren. El período de vencimiento depende de su empresa y puede tardar entre dos semanas y tres meses. Por ejemplo, si tu evento incluye una transacción con tarjeta de crédito, el vencimiento de los datos podría determinarse según el período de devolución de la tarjeta de crédito o el tiempo que un investigador haya tardado en tomar una decisión.

    Asegúrese de que el conjunto de datos utilizado para entrenar el modelo haya tenido tiempo suficiente para madurar según su empresa.

  • Asegúrese de que la distribución de datos no se desvíe significativamente: el proceso de entrenamiento del modelo Amazon Fraud Detector muestrea y particiona su conjunto de datos basándose en EVENT_TIMESTAMP. Por ejemplo, si su conjunto de datos se compone de eventos de fraude extraídos de los últimos 6 meses, pero solo se incluye el último mes de eventos legítimos, la distribución de datos se considera inestable y a la deriva. Un conjunto de datos inestable puede provocar sesgos en la evaluación del rendimiento del modelo. Si encuentra que la distribución de datos se desvía significativamente, considere equilibrar su conjunto de datos recopilando datos similares a la distribución de datos actual.

  • Asegúrese de que el conjunto de datos sea representativo del caso de uso en el que se implementa/prueba el modelo; de lo contrario, el rendimiento estimado podría estar sesgado. Supongamos que utilizas un modelo para rechazar automáticamente a todos los candidatos internos, pero tu modelo se entrena con un conjunto de datos que contiene datos y etiquetas históricos que se aprobaron previamente. En ese caso, la evaluación del modelo podría ser inexacta porque se basa en un conjunto de datos que no incluye a los solicitantes rechazados.

Formato de datos de eventos

Amazon Fraud Detector transforma la mayoría de sus datos al formato requerido como parte de su proceso de formación de modelos. Sin embargo, existen algunos formatos estándar que puede utilizar fácilmente para proporcionar sus datos y que pueden ayudar a evitar problemas más adelante, cuando Amazon Fraud Detector valide su conjunto de datos. La siguiente tabla proporciona orientación sobre los formatos para proporcionar los metadatos de eventos recomendados.

nota

Al crear el archivo CSV, asegúrese de introducir el nombre de los metadatos del evento tal y como se indica a continuación, en mayúsculas.

Nombre de metadatos Formato Obligatorio

ID_DE_EVENTO

Si se proporciona, debe cumplir los siguientes requisitos:

  • Es único para ese evento.

  • Representa información significativa para su empresa.

  • Sigue el patrón de expresiones regulares (por ejemplo,^[0-9a-z_-]+$.)

  • Además de los requisitos anteriores, te recomendamos que no añadas ninguna marca de tiempo al EVENT_ID. Hacerlo podría causar problemas al actualizar el evento. Esto se debe a que debes proporcionar exactamente el mismo EVENT_ID si lo haces.

Depende del tipo de modelo

EVENT_TIMESTAMP

  • Debe especificarse en uno de los siguientes formatos:

    • %YYYY-%MM-%DDT%HH: %mm: %sSz (estándar ISO 8601 solo en UTC sin milisegundos)

      Ejemplo: 2019-11-30T 13:01:01 Z

    • %aaaa/%mm/%dd %hh: %mm: %s (mañana y tarde)

      Ejemplos: 30 de noviembre de 2019 a las 13:01:01 p. m., o 30 de noviembre de 2019 a las 13:00:01

    • %mm/%dd/%aaaa %hh: %mm: %ss

      Ejemplos: 30/11/2019 1:01:01 p.m., 30/11/2019 13:01:01

    • %mm/%dd/%yy %h: %mm: %s

      Ejemplos: 30/11/19 1:01:01 p.m., 11/30/19 13:01:01

  • Amazon Fraud Detector hace las siguientes suposiciones al analizar los formatos de fecha y hora para las marcas de tiempo de los eventos:

    • Si utiliza la norma ISO 8601, debe coincidir exactamente con la especificación anterior.

    • Si utiliza uno de los otros formatos, hay flexibilidad adicional:

      • Para meses y días, puedes proporcionar uno o dos dígitos. Por ejemplo, el 12 de enero de 2019 es una fecha válida.

      • No necesita incluir hh:mm:ss si no los tiene (es decir, simplemente puede proporcionar una fecha). También puede proporcionar un subconjunto de solo la hora y los minutos (por ejemplo, hh:mm). No se admite solo proporcionar la hora. Tampoco se admiten milisegundos.

      • Si proporciona etiquetas de mañana a tarde, se asume que es un reloj de 12 horas. Si no hay información AM/PM, se asume que el reloj es de 24 horas.

      • Puede utilizar «/» o «-» como delimitadores para los elementos de fecha. Se asume «:» para los elementos de marca de tiempo.

IDENTIFICADOR DE ENTIDAD

  • Debe seguir el patrón de expresiones regulares:^[0-9A-Za-z_.@+-]+$.

  • Si el identificador de la entidad no está disponible en el momento de la evaluación, especifique el identificador de la entidad como desconocido.

Depende del tipo de modelo

TIPO_DE_ENTIDAD

Puede utilizar cualquier cadena.

Depende del tipo de modelo

ETIQUETA_DE_EVENTO

Puede utilizar cualquier etiqueta, como «fraude», «legítimo», «1" o «0".

Necesario si se incluye LABEL_TIMESTAMP

LABEL_TIMESTAMP

Debe seguir el formato de marca de tiempo.

Obligatorio si se incluye EVENT_LABEL

Para obtener información sobre las variables de eventos, consulte Variables.

importante

Si está creando el modelo Account Takeover Insights (ATI), consultePreparación de datos para obtener más información sobre la preparación y la selección de datos.

Valores nulos o faltantes

Las variables EVENT_TIMESTAMP y EVENT_LABEL no deben contener ningún valor nulo o faltante. Puede tener valores nulos o faltantes para otras variables. Sin embargo, recomendamos que solo utilice un número pequeño de nulos para esas variables. Si Amazon Fraud Detector determina que hay demasiados valores nulos o faltantes para las variables de un evento, omitirá automáticamente la variable del modelo.

Variables mínimas

Al crear el modelo, el conjunto de datos debe incluir al menos dos variables de eventos además de los metadatos de eventos requeridos. Las dos variables de evento deben pasar la comprobación de validación.

Tamaño del conjunto de datos de eventos

Obligatorio

El conjunto de datos debe cumplir los siguientes requisitos básicos para que el entrenamiento del modelo sea exitoso.

  • Datos de al menos 100 eventos.

  • El conjunto de datos debe incluir al menos 50 eventos (filas) clasificados como fraudulentos.

Recomendado

Recomendamos que el conjunto de datos incluya lo siguiente para que el entrenamiento del modelo se realice correctamente y el rendimiento del modelo sea satisfactorio.

  • Incluya un mínimo de tres semanas de datos históricos, pero, en el mejor de los casos, seis meses de datos.

  • Incluye un mínimo de 10 000 datos de eventos en total.

  • Incluye al menos 400 eventos (filas) clasificados como fraudulentos y 400 eventos (filas) clasificados como legítimos.

  • Incluye más de 100 entidades únicas, si tu tipo de modelo requiere ENTITY_ID.

Validación de conjunto de datos.

Antes de que Amazon Fraud Detector comience a crear el modelo, comprueba si las variables incluidas en el conjunto de datos para entrenar el modelo cumplen con los requisitos de tamaño, formato y otros requisitos. Si el conjunto de datos no pasa la validación, no se crea el modelo. Primero debe corregir las variables que no pasaron la validación antes de crear el modelo. Amazon Fraud Detector le proporciona un generador de perfiles de datos que puede utilizar para ayudarlo a identificar y solucionar problemas con su conjunto de datos antes de empezar a entrenar su modelo.

Generador de perfiles de datos

Amazon Fraud Detector proporciona una herramienta de código abierto para crear perfiles y preparar sus datos para la formación de modelos. Este generador de perfiles de datos automatizado le ayuda a evitar errores comunes de preparación de datos e identificar posibles problemas, como tipos de variables mal mapeados, que podrían afectar negativamente al rendimiento del modelo. El generador de perfiles genera un informe intuitivo y completo de su conjunto de datos, que incluye estadísticas variables, distribución de etiquetas, análisis categóricos y numéricos y correlaciones de variables y etiquetas. Proporciona orientación sobre los tipos de variables, así como una opción para transformar el conjunto de datos en el formato que requiera Amazon Fraud Detector.

Uso del generador de perfiles de datos

El generador de perfiles de datos automatizado se basa en unaAWS CloudFormation pila que puede iniciar fácilmente con unos pocos clics. Todos los códigos están disponibles en Github. Para obtener información sobre cómo utilizar el generador de perfiles de datos, siga las instrucciones de nuestro blog Entrene modelos más rápido con un generador de perfiles de datos automatizado para Amazon Fraud Detector

Errores comunes del conjunto de datos de eventos

Los siguientes son algunos de los problemas más comunes con los que se enfrenta Amazon Fraud Detector al validar un conjunto de datos de eventos. Después de ejecutar el generador de perfiles de datos, utilice esta lista para comprobar si hay errores en el conjunto de datos antes de crear el modelo.

  • El archivo de CSV no está en formato UTF-8.

  • El número de eventos del conjunto de datos es inferior a 100.

  • El número de eventos identificados como fraudulentos o legítimos es inferior a 50.

  • El número de entidades únicas asociadas a un evento de fraude es inferior a 100.

  • Más del 0,1% de los valores de EVENT_TIMESTAMP contienen valores nulos o valores distintos de los formatos de fecha y hora admitidos.

  • Más del 1% de los valores de EVENT_LABEL contienen valores nulos o distintos de los definidos en el tipo de evento.

  • Hay menos de dos variables disponibles para el entrenamiento del modelo.

Almacenamiento de conjuntos de datos.

Después de recopilar el conjunto de datos, los almacena de forma interna Fraud Detector Simple Storage Service (Amazon S3). Le recomendamos que elija dónde almacenar su conjunto de datos en función del modelo que utilice para generar predicciones de fraude. Para obtener más información sobre los tipos de modelos, consulte Elegir un tipo de modelo. Para obtener más información sobre cómo almacenar el conjunto de datos, consulteAlmacenamiento de datos de eventos.