Estructura del conjunto de datos de eventos Obtenga los requisitos del conjunto de datos de eventos mediante el explorador de modelos de datos Recopila datos del evento Validación del conjunto de Almacenamiento de conjuntos de datos

Conjunto de datos de eventos

Un conjunto de datos de eventos son los datos históricos de fraude de su empresa. Proporcionas estos datos a Amazon Fraud Detector para crear modelos de detección de fraudes.

Amazon Fraud Detector utiliza modelos de aprendizaje automático para generar predicciones de fraude. Cada modelo se entrena con un tipo de modelo. El tipo de modelo especifica los algoritmos y las transformaciones que se utilizan para entrenar el modelo. El entrenamiento con modelos es el proceso de utilizar un conjunto de datos que se proporciona para crear un modelo que pueda predecir eventos fraudulentos. Para obtener más información, consulta Cómo funciona Amazon Fraud Detector

El conjunto de datos utilizado para crear el modelo de detección de fraudes proporciona detalles de un evento. Un evento es una actividad empresarial que se evalúa para detectar el riesgo de fraude. Por ejemplo, el registro de una cuenta puede ser un evento. Los datos asociados al evento de registro de la cuenta pueden ser un conjunto de datos del evento. Amazon Fraud Detector utiliza este conjunto de datos para evaluar el fraude en el registro de cuentas.

Antes de proporcionar su conjunto de datos a Amazon Fraud Detector para crear un modelo, asegúrese de definir su objetivo al crear el modelo. También debe determinar cómo desea utilizar el modelo y definir las métricas para evaluar si el modelo funciona en función de sus requisitos específicos.

Por ejemplo, sus objetivos para crear un modelo de detección de fraudes que evalúe el fraude en el registro de cuentas pueden ser los siguientes:

Para aprobar automáticamente los registros legítimos.
Para capturar los registros fraudulentos para su posterior investigación.

Una vez que haya determinado su objetivo, el siguiente paso es decidir cómo quiere utilizar el modelo. Algunos ejemplos de uso del modelo de detección de fraudes para evaluar el fraude de registro son los siguientes:

Para detectar el fraude en tiempo real en cada registro de cuenta.
Para evaluar sin conexión todos los registros de cuentas cada hora.

Algunos ejemplos de métricas que se pueden utilizar para medir el rendimiento del modelo son los siguientes:

Funciona consistentemente mejor que la línea base actual en producción.
Captura un X% de registros fraudulentos con una tasa de falsos positivos del Y%.
Acepta hasta un 5% de los registros que se aprueban automáticamente y que son fraudulentos.

Estructura del conjunto de datos de eventos

Amazon Fraud Detector requiere que proporciones tu conjunto de datos de eventos en un archivo de texto con valores separados por comas (CSV) en formato UTF-8. La primera línea del archivo de conjunto de datos CSV debe contener los encabezados de los archivos. El encabezado del archivo consta de metadatos y variables de eventos que describen cada elemento de datos asociado al evento. El encabezado va seguido de los datos del evento. Cada línea consta de elementos de datos de un solo evento.

Metadatos del evento: proporcionan información sobre el evento. Por ejemplo, EVENT_TIMESTAMP es un metadato de un evento que especifica la hora en que ocurrió el evento. Según el caso de uso empresarial y el tipo de modelo utilizado para crear y entrenar el modelo de detección de fraudes, Amazon Fraud Detector requiere que proporciones metadatos de eventos específicos. Al especificar los metadatos del evento en el encabezado del archivo CSV, utilice el mismo nombre de metadatos del evento que especificó Amazon Fraud Detector y utilice únicamente letras mayúsculas.
Variable de evento: representa los elementos de datos específicos de su evento y que desea utilizar para crear y entrenar su modelo de detección de fraudes. Según el caso de uso empresarial y el tipo de modelo utilizado para crear y entrenar un modelo de detección de fraudes, Amazon Fraud Detector puede requerir o recomendar que proporciones variables de eventos específicas. Si lo desea, también puede proporcionar otras variables de evento de su evento que desee incluir en el entrenamiento del modelo. Algunos ejemplos de variables de evento para un evento de registro en línea pueden ser la dirección de correo electrónico, la dirección IP y el número de teléfono. Al especificar el nombre de la variable de evento en el encabezado del archivo CSV, utilice el nombre de variable que prefiera y utilice únicamente letras minúsculas.
Datos del evento: representan los datos recopilados del evento real. En el archivo CSV, cada fila que sigue al encabezado del archivo consta de elementos de datos de un solo evento. Por ejemplo, en un archivo de datos de un evento de registro en línea, cada fila contiene datos de un solo registro. Cada elemento de datos de la fila debe coincidir con los metadatos del evento correspondientes o con la variable del evento.

El siguiente es un ejemplo de un archivo CSV que contiene datos de un evento de registro de una cuenta. La fila del encabezado contiene los metadatos del evento en mayúsculas y las variables del evento en minúsculas, seguidos de los datos del evento. Cada fila del conjunto de datos contiene elementos de datos asociados al registro de una sola cuenta, y cada elemento de datos se corresponde con el encabezado.

CSV file showing event metadata and variables with sample data for account registration events.

Obtenga los requisitos del conjunto de datos de eventos mediante el explorador de modelos de datos

El tipo de modelo que elija para crear su modelo define los requisitos de su conjunto de datos. Amazon Fraud Detector utiliza el conjunto de datos que usted proporciona para crear y entrenar su modelo de detección de fraudes. Antes de que Amazon Fraud Detector comience a crear el modelo, comprueba si el conjunto de datos cumple los requisitos de tamaño, formato y demás requisitos. Si el conjunto de datos no cumple con los requisitos, la creación y el entrenamiento del modelo fallan. Puede usar el explorador de modelos de datos para identificar un tipo de modelo para usarlo en su caso de uso empresarial y obtener información sobre los requisitos del conjunto de datos para el tipo de modelo identificado.

Explorador de modelos de datos

El explorador de modelos de datos es una herramienta de la consola de Amazon Fraud Detector que alinea su caso de uso empresarial con el tipo de modelo compatible con Amazon Fraud Detector. El explorador de modelos de datos también proporciona información sobre los elementos de datos que Amazon Fraud Detector necesita para crear su modelo de detección de fraudes. Antes de empezar a preparar tu conjunto de datos de eventos, usa el explorador de modelos de datos para averiguar el tipo de modelo que Amazon Fraud Detector recomienda para tu uso empresarial y también para ver una lista de elementos de datos obligatorios, recomendados y opcionales que necesitarás para crear tu conjunto de datos.

Para utilizar el explorador de modelos de datos,

Inicie sesión en la Consola de administración de AWS e inicie sesión en su cuenta. Navega hasta Amazon Fraud Detector.
En el panel de navegación izquierdo, selecciona el explorador de modelos de datos.
En la página del explorador de modelos de datos, en Caso de uso empresarial, seleccione el caso de uso empresarial que desee evaluar para determinar el riesgo de fraude.
Amazon Fraud Detector muestra el tipo de modelo recomendado que coincide con tu caso de uso empresarial. El tipo de modelo define los algoritmos, las mejoras y las transformaciones que Amazon Fraud Detector utilizará para entrenar tu modelo de detección de fraudes.

Anote el tipo de modelo recomendado. Lo necesitará más adelante cuando cree el modelo.

nota
Si no encuentra su caso de uso empresarial, utilice el enlace de contacto que aparece en la descripción para proporcionarnos los detalles de su caso de uso empresarial. Le recomendaremos el tipo de modelo que debe utilizar para crear un modelo de detección de fraudes para su caso de uso empresarial.
El panel de información del modelo de datos proporciona información sobre los elementos de datos obligatorios, recomendados y opcionales necesarios para crear y entrenar un modelo de detección de fraude para su caso de uso empresarial. Usa la información del panel de información para recopilar los datos de tus eventos y crear tu conjunto de datos.

Recopila datos del evento

Recopilar los datos de tu evento es un paso importante para crear tu modelo. Esto se debe a que el rendimiento de su modelo a la hora de predecir el fraude depende de la calidad del conjunto de datos. Cuando comience a recopilar los datos de sus eventos, tenga en cuenta la lista de elementos de datos que el explorador de modelos de datos le proporcionó para crear su conjunto de datos. Deberás recopilar todos los datos obligatorios (metadatos del evento) y decidir qué elementos de datos (variables de eventos) recomendados y opcionales incluir en función de tus objetivos al crear el modelo. También es importante decidir el formato de cada variable de evento que desee incluir y el tamaño total del conjunto de datos.

Calidad del conjunto de datos de eventos

Para recopilar un conjunto de datos de alta calidad para su modelo, le recomendamos lo siguiente:

Recopile datos actualizados: el uso de los datos más recientes ayuda a identificar el patrón de fraude más reciente. Sin embargo, para detectar casos de uso fraudulento, deje que los datos maduren. El período de vencimiento depende de su empresa y puede tardar entre dos semanas y tres meses. Por ejemplo, si su evento incluye una transacción con tarjeta de crédito, el vencimiento de los datos podría estar determinado por el período de devolución de cargos de la tarjeta de crédito o por el tiempo que tarde un investigador en tomar una decisión.

Asegúrese de que el conjunto de datos utilizado para entrenar el modelo haya tenido el tiempo suficiente para madurar según su empresa.
Asegúrese de que la distribución de los datos no se desvíe de forma significativa: Amazon Fraud Detector modela el proceso de entrenamiento y divide su conjunto de datos en función de EVENT_TIMESTAMP. Por ejemplo, si su conjunto de datos consta de eventos de fraude extraídos de los últimos 6 meses, pero solo se incluye el último mes de eventos legítimos, se considera que la distribución de los datos es variable e inestable. Un conjunto de datos inestable puede provocar sesgos en la evaluación del rendimiento del modelo. Si encuentra que la distribución de los datos se desvía considerablemente, considere la posibilidad de equilibrar el conjunto de datos recopilando datos similares a la distribución de datos actual.
Asegúrese de que el conjunto de datos sea representativo del caso de uso en el que se implementó o probó el modelo; de lo contrario, el rendimiento estimado podría estar sesgado. Supongamos que está utilizando un modelo para rechazar automáticamente a todas las solicitudes presentadas, pero su modelo está entrenado con un conjunto de datos que contiene datos históricos o etiquetas que fueron aprobados previamente. Por lo tanto, la evaluación de su modelo podría ser inexacta porque se basa en un conjunto de datos que no incluye la representación de los candidatos rechazados.

Formato de datos del evento

Amazon Fraud Detector transforma la mayoría de los datos al formato requerido como parte de su proceso de formación modelo. Sin embargo, hay algunos formatos estándar que puedes usar fácilmente para proporcionar tus datos y que te ayudarán a evitar problemas más adelante, cuando Amazon Fraud Detector valide tu conjunto de datos. La siguiente tabla proporciona orientación sobre los formatos para proporcionar los metadatos de eventos recomendados.

nota

Al crear el archivo CSV, asegúrate de introducir el nombre de los metadatos del evento tal y como se indica a continuación, en mayúsculas.

Nombre de los metadatos	Formato	Obligatorio
EVENT_ID	Si se proporciona, debe cumplir los siguientes requisitos: Es único para ese evento. Representa información importante para su empresa. Sigue el patrón de expresiones regulares (por ejemplo, `^[0-9a-z_-]+$.)` Además de los requisitos anteriores, te recomendamos que no añadas una marca de tiempo al EVENT_ID. Si lo haces, podrían producirse problemas al actualizar el evento. Esto se debe a que debes proporcionar exactamente el mismo EVENT_ID si lo haces.	Depende del tipo de modelo
EVENT_TIMESTAMP	Debe especificarse en uno de los siguientes formatos: %aaay-%mm-%DDt%HH: %mm: %ssZ (estándar ISO 8601 solo en UTC, sin milisegundos) Ejemplo: 2019-11-30T 13:01:01 Z %aaay/%mm/%dd %hh: %mm: %ss (AM/PM) Ejemplos: 30 de noviembre de 2019 a las 13:01:01 p. m., o 30 de noviembre de 2019 a las 13:01:01 %mm/%dd/%aaaa %hh: %mm: %ss Ejemplos: 30/11/2019 13:01:01 p.m., 30/11/2019 13:01:01 %mm/%dd/%yy %hh: %mm: %ss Ejemplos: 30/11/19 13:01:01 p. m., 30/11/19 13:01:01 Amazon Fraud Detector hace las siguientes suposiciones al analizar los formatos de fecha y hora de las marcas horarias de los eventos: Si utiliza la norma ISO 8601, debe coincidir exactamente con la especificación anterior Si utiliza uno de los otros formatos, hay flexibilidad adicional: Para meses y días, puede proporcionar dígitos de uno o dos dígitos. Por ejemplo, el 1 de diciembre de 2019 es una fecha válida. No necesitas incluir hh:mm:ss si no los tienes (es decir, puedes simplemente indicar una fecha). También puede proporcionar un subconjunto de solo la hora y los minutos (por ejemplo, hh:mm). No se admite el simple hecho de proporcionar una hora. Tampoco se admiten milisegundos. Si proporciona AM/PM labels, a 12-hour clock is assumed. If there is no AM/PM información, se asume un reloj de 24 horas. Puede utilizar «/» o «-» como delimitadores para los elementos de fecha. Se utiliza «:» para los elementos de marca de tiempo.	Sí
ENTITY_ID	Debe seguir el patrón de expresión regular:. `^[0-9A-Za-z_.@+-]+$` Si el identificador de la entidad no está disponible en el momento de la evaluación, especifique el identificador de la entidad como desconocido.	Depende del tipo de modelo
TIPO_ENTIDAD	Puedes usar cualquier cadena	Depende del tipo de modelo
EVENT_LABEL	Puedes usar cualquier etiqueta, como «fraude», «legítimo», «1» o «0".	Obligatorio si se incluye LABEL_TIMESTAMP
LABEL_TIMESTAMP	Debe seguir el formato de marca de tiempo.	Obligatorio si se incluye EVENT_LABEL

Para obtener información sobre las variables de eventos, consulte Variables.

importante

Si va a crear el modelo Account Takeover Insights (ATI), consulte Preparación de datos para obtener más información sobre la preparación y selección de datos.

Valores nulos o faltantes

Las variables EVENT_TIMESTAMP y EVENT_LABEL no deben contener valores nulos o faltantes. Puede haber valores nulos o faltantes para otras variables. Sin embargo, le recomendamos que utilice solo un número pequeño de valores nulos para esas variables. Si Amazon Fraud Detector determina que hay demasiados valores nulos o faltantes para una variable de evento, omitirá automáticamente la variable del modelo.

Variables mínimas

Al crear el modelo, el conjunto de datos debe incluir al menos dos variables de eventos además de los metadatos de eventos necesarios. Las dos variables de evento deben pasar la comprobación de validación.

Tamaño del conjunto de datos de eventos

Obligatorio

Su conjunto de datos debe cumplir los siguientes requisitos básicos para que el entrenamiento del modelo sea exitoso.

Datos de al menos 100 eventos.
El conjunto de datos debe incluir al menos 50 eventos (filas) clasificados como fraudulentos.

Recomendado

Recomendamos que su conjunto de datos incluya lo siguiente para que el entrenamiento del modelo sea exitoso y el rendimiento del modelo sea bueno.

Incluya un mínimo de tres semanas de datos históricos, pero en el mejor de los casos seis meses de datos.
Incluya un mínimo de 10 000 datos totales de eventos.
Incluya al menos 400 eventos (filas) clasificados como fraudulentos y 400 eventos (filas) clasificados como legítimos.
Incluya más de 100 entidades únicas, si su tipo de modelo requiere ENTITY_ID.

Validación del conjunto de

Antes de que Amazon Fraud Detector comience a crear el modelo, comprueba si las variables incluidas en el conjunto de datos para entrenar el modelo cumplen con el tamaño, el formato y otros requisitos. Si el conjunto de datos no pasa la validación, el modelo no se crea. Primero debe corregir las variables que no pasaron la validación antes de crear el modelo. Amazon Fraud Detector le proporciona un generador de perfiles de datos que puede utilizar para ayudarle a identificar y solucionar problemas con su conjunto de datos antes de empezar a entrenar su modelo.

Generador de perfiles de datos

Amazon Fraud Detector proporciona una herramienta de código abierto para crear perfiles y preparar los datos para la formación de modelos. Este generador de perfiles de datos automatizado le ayuda a evitar errores comunes en la preparación de los datos e identificar posibles problemas, como los tipos de variables mal mapeados que podrían afectar negativamente al rendimiento del modelo. El generador de perfiles genera un informe intuitivo y completo del conjunto de datos, que incluye estadísticas de variables, distribución de etiquetas, análisis categóricos y numéricos y correlaciones de variables y etiquetas. Proporciona orientación sobre los tipos de variables, así como una opción para transformar el conjunto de datos en el formato que Amazon Fraud Detector requiera.

Uso del generador de perfiles de datos

El generador de perfiles de datos automatizado está creado con una AWS CloudFormation pila, que puede iniciar fácilmente con unos pocos clics. Todos los códigos están disponibles en Github. Para obtener información sobre cómo usar el generador de perfiles de datos, sigue las instrucciones de nuestro blog Entrena modelos más rápido con un generador de perfiles de datos automatizado para Amazon Fraud Detector.

Errores comunes en el conjunto de datos de eventos

Los siguientes son algunos de los problemas más comunes que encuentra Amazon Fraud Detector al validar un conjunto de datos de eventos. Después de ejecutar el generador de perfiles de datos, utilice esta lista para comprobar si hay errores en el conjunto de datos antes de crear el modelo.

El archivo CSV no está en formato UTF-8.
El número de eventos del conjunto de datos es inferior a 100.
El número de eventos identificados como fraudulentos o legítimos es inferior a 50.
El número de entidades únicas asociadas a un evento de fraude es inferior a 100.
Más del 0,1% de los valores de EVENT_TIMESTAMP contienen valores nulos o valores distintos de los formatos de fecha y hora admitidos.
Más del 1% de los valores de EVENT_LABEL contienen valores nulos o valores distintos de los definidos en el tipo de evento.
Hay menos de dos variables disponibles para el entrenamiento del modelo.

Almacenamiento de conjuntos de datos

Después de recopilar el conjunto de datos, lo almacena internamente con Amazon Fraud Detector o externamente con Amazon Simple Storage Service (Amazon S3). Le recomendamos que elija dónde almacenar su conjunto de datos en función del modelo que utilice para generar las predicciones de fraude. Para obtener más información sobre los tipos de modelos, consulte Elegir un tipo de modelo. Para obtener más información sobre cómo almacenar el conjunto de datos, consulteAlmacenamiento de datos de eventos.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Pasos a seguir a continuación

Tipo de evento