Criar arquivo CSV - Amazon Fraud Detector

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Criar arquivo CSV

O Amazon Fraud Detector exige que a primeira linha do seu arquivo CSV contenha cabeçalhos de coluna. Os cabeçalhos das colunas em seu arquivo CSV devem ser mapeados para as variáveis definidas no tipo de evento. Para ver um exemplo de conjunto de dados, consulte Obtenha e faça upload de um conjunto de dados de exemplo

O modelo Online Fraud Insights requer um conjunto de dados de treinamento que tenha pelo menos 2 variáveis e até 100 variáveis. Além das variáveis do evento, o conjunto de dados de treinamento deve conter os seguintes cabeçalhos:

  • EVENT_TIMESTAMP - Define quando o evento ocorreu

  • EVENT_LABEL - Classifica o evento como fraudulento ou legítimo. Os valores na coluna devem corresponder aos valores definidos no tipo de evento.

A amostra de dados CSV a seguir representa eventos históricos de registro de um comerciante on-line:

EVENT_TIMESTAMP,EVENT_LABEL,ip_address,email_address 4/10/2019 11:05,fraud,209.146.137.48,fake_burtonlinda@example.net 12/20/2018 20:04,legit,203.0.112.189,fake_davidbutler@example.org 3/14/2019 10:56,legit,169.255.33.54,fake_shelby76@example.net 1/3/2019 8:38,legit,192.119.44.26,fake_curtis40@example.com 9/25/2019 3:12,legit,192.169.85.29,fake_rmiranda@example.org
nota

O arquivo de dados CSV pode conter aspas duplas e vírgulas como parte dos seus dados.

Uma versão simplificada do tipo de evento correspondente está representada abaixo. As variáveis do evento correspondem aos cabeçalhos no arquivo CSV e os valores em EVENT_LABEL correspondem aos valores na lista de rótulos.

( name = 'sample_registration', eventVariables = ['ip_address', 'email_address'], labels = ['legit', 'fraud'], entityTypes = ['sample_customer'] )

Formatos de registro de data e hora do evento

Certifique-se de que a data e hora do evento esteja no formato exigido. Como parte do processo de criação do modelo, o tipo de modelo Online Fraud Insights ordena seus dados com base na data e hora do evento e divide seus dados para fins de treinamento e teste. Para obter uma estimativa justa do desempenho, o modelo primeiro treina no conjunto de dados de treinamento e depois testa esse modelo no conjunto de dados de teste.

O Amazon Fraud Detector suporta os seguintes formatos de data e hora para os valores durante o treinamento do modelo: EVENT_TIMESTAMP

  • %aaaa-%mm-%DDT%hh: %mm: %sSz (padrão ISO 8601 somente em UTC sem milissegundos)

    Exemplo: 2019-11-30T 13:01:01 Z

  • %aaa/%mm/%dd %hh: %mm: %s (AM/PM)

    Exemplos: 2019/11/30 13:01:01 PM ou 2019/11/30 13:01:01

  • %mm/%dd/%aaaa %hh: %mm: %s

    Exemplos: 30/11/2019 13:01:01 PM, 30/11/2019 13:01:01

  • %mm/%dd/%yy %h: %mm: %s

    Exemplos: 30/11/19 13:01:01 PM, 30/11/19 13:01:01

O Amazon Fraud Detector faz as seguintes suposições ao analisar formatos de data/data e hora para carimbos de data e hora de eventos:

  • Se você estiver usando o padrão ISO 8601, ele deverá corresponder exatamente à especificação anterior

  • Se você estiver usando um dos outros formatos, há flexibilidade adicional:

    • Por meses e dias, você pode fornecer dígitos simples ou duplos. Por exemplo, 1/12/2019 é uma data válida.

    • Você não precisa incluir hh:mm:ss se não os tiver (ou seja, você pode simplesmente fornecer uma data). Você também pode fornecer um subconjunto de apenas a hora e os minutos (por exemplo, hh:mm). Não há suporte para fornecer apenas uma hora. Milissegundos também não são suportados.

    • Se você fornecer AM/PM labels, a 12-hour clock is assumed. If there is no AM/PM informações, presume-se que haja um relógio de 24 horas.

    • Você pode usar “/” ou “-” como delimitadores para os elementos de data. “:” é assumido para os elementos de carimbo de data/hora.

Amostragem do seu conjunto de dados ao longo do tempo

Recomendamos que você forneça exemplos de fraudes e amostras legítimas do mesmo período. Por exemplo, se você fornecer eventos fraudulentos dos últimos 6 meses, também deverá fornecer eventos legítimos que abranjam uniformemente o mesmo período. Se seu conjunto de dados contiver uma distribuição altamente desigual de fraudes e eventos legítimos, você poderá receber o seguinte erro: “A distribuição de fraudes ao longo do tempo é inaceitavelmente flutuante. Não é possível dividir o conjunto de dados corretamente.” Normalmente, a solução mais fácil para esse erro é garantir que os eventos de fraude e os eventos legítimos sejam amostrados uniformemente no mesmo período. Talvez você também precise remover dados se tiver experimentado um grande aumento de fraudes em um curto período de tempo.

Se você não conseguir gerar dados suficientes para criar um conjunto de dados distribuído uniformemente, uma abordagem é randomizar o EVENT_TIMESTAMP de seus eventos para que eles sejam distribuídos uniformemente. No entanto, isso geralmente faz com que as métricas de desempenho não sejam realistas porque o Amazon Fraud Detector usa EVENT_TIMESTAMP para avaliar modelos no subconjunto apropriado de eventos em seu conjunto de dados.

Valores nulos e faltantes

O Amazon Fraud Detector lida com valores nulos e ausentes. No entanto, a porcentagem de nulos para variáveis deve ser limitada. As colunas EVENT_TIMESTAMP e EVENT_LABEL não devem conter valores ausentes.

Validação de arquivos

O Amazon Fraud Detector falhará em treinar um modelo se alguma das seguintes condições for acionada:

  • Se o CSV não puder ser analisado

  • Se o tipo de dados de uma coluna estiver incorreto