Conjunto de dados de eventos do - Amazon Fraud Detector

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Conjunto de dados de eventos do

Um conjunto de dados de eventos são os dados históricos de fraudes da sua empresa. Você fornece esses dados ao Amazon Fraud Detector para criar modelos de detecção de fraudes.

O Amazon Fraud Detector usa modelos de aprendizado de máquina para gerar previsões de fraudes. Cada modelo é treinado usando um tipo de modelo. O tipo de modelo especifica os algoritmos e as transformações que são usados para treinar o modelo. O treinamento de modelos é o processo de usar um conjunto de dados que você fornece para criar um modelo capaz de prever eventos fraudulentos. Para obter mais informações, consulte Como funciona o Amazon Fraud Detector

O conjunto de dados usado para criar o modelo de detecção de fraudes fornece detalhes de um evento. Um evento é uma atividade comercial que é avaliada quanto ao risco de fraude. Por exemplo, o registro de uma conta pode ser um evento. Os dados associados ao evento de registro da conta podem ser um conjunto de dados do evento. O Amazon Fraud Detector usa esse conjunto de dados para avaliar fraudes no registro de contas.

Antes de fornecer seu conjunto de dados ao Amazon Fraud Detector para criar um modelo, certifique-se de definir sua meta para criar o modelo. Você também precisa determinar como deseja usar o modelo e definir suas métricas para avaliar se o modelo está funcionando com base em seus requisitos específicos.

Por exemplo, suas metas para criar um modelo de detecção de fraudes que avalia a fraude no registro de contas podem ser as seguintes:

  • Para aprovar automaticamente registros legítimos.

  • Para capturar registros fraudulentos para investigação posterior.

Depois de determinar sua meta, a próxima etapa é decidir como você deseja usar o modelo. Alguns exemplos de uso do modelo de detecção de fraudes para avaliar fraudes de registro são os seguintes:

  • Para detecção de fraudes em tempo real para cada registro de conta.

  • Para avaliação off-line de todos os registros de contas a cada hora.

Alguns exemplos de métricas que podem ser usadas para medir o desempenho do modelo incluem o seguinte:

  • Tem um desempenho consistentemente melhor do que a linha de base atual na produção.

  • Captura X% de registros de fraudes com Y% de taxa de falsos positivos.

  • Aceita até 5% dos registros aprovados automaticamente que são fraudulentos.

Estrutura do conjunto de dados de eventos

O Amazon Fraud Detector exige que você forneça seu conjunto de dados de eventos em um arquivo de texto usando valor separado por vírgula (CSV) no formato UTF-8. A primeira linha do seu arquivo de conjunto de dados CSV deve conter cabeçalhos de arquivo. O cabeçalho do arquivo consiste em metadados e variáveis de evento que descrevem cada elemento de dados associado ao evento. O cabeçalho é seguido pelos dados do evento. Cada linha consiste em elementos de dados de um único evento.

  • Metadados do evento - fornece informações sobre o evento. Por exemplo, EVENT_TIMESTAMP é um metadado de evento que especifica a hora em que o evento ocorreu. Dependendo do caso de uso da sua empresa e do tipo de modelo usado para criar e treinar seu modelo de detecção de fraudes, o Amazon Fraud Detector exige que você forneça metadados de eventos específicos. Ao especificar metadados de eventos no cabeçalho do arquivo CSV, use o mesmo nome de metadados de evento especificado pelo Amazon Fraud Detector e use somente letras maiúsculas.

  • Variável de evento - representa os elementos de dados específicos do seu evento que você deseja usar para criar e treinar seu modelo de detecção de fraudes. Dependendo do caso de uso da sua empresa e do tipo de modelo usado para criar e treinar um modelo de detecção de fraudes, o Amazon Fraud Detector pode exigir ou recomendar que você forneça variáveis de evento específicas. Você também pode, opcionalmente, fornecer outras variáveis de evento do seu evento que você deseja incluir no treinamento do modelo. Alguns exemplos de variáveis de evento para um evento de registro on-line podem ser endereço de e-mail, endereço IP e número de telefone. Ao especificar o nome da variável do evento no cabeçalho do arquivo CSV, use qualquer nome de variável de sua escolha e use somente letras minúsculas.

  • Dados do evento - representam os dados coletados do evento real. Em seu arquivo CSV, cada linha após o cabeçalho do arquivo consiste em elementos de dados de um único evento. Por exemplo, em um arquivo de dados de evento de registro on-line, cada linha contém dados de um único registro. Cada elemento de dados na linha deve corresponder aos metadados do evento correspondentes ou à variável do evento.

Veja a seguir um exemplo de um arquivo CSV contendo dados de um evento de registro de conta. A linha do cabeçalho contém metadados do evento em maiúsculas e variáveis de evento em minúsculas, seguidos pelos dados do evento. Cada linha no conjunto de dados contém elementos de dados associados ao registro de uma única conta, com cada elemento de dados correspondente ao cabeçalho.

Obtenha os requisitos do conjunto de dados de eventos usando o Data Models Explorer

O tipo de modelo que você escolhe para criar seu modelo define os requisitos para seu conjunto de dados. O Amazon Fraud Detector usa o conjunto de dados que você fornece para criar e treinar seu modelo de detecção de fraudes. Antes de começar a criar seu modelo, o Amazon Fraud Detector verifica se o conjunto de dados atende ao tamanho, formato e outros requisitos. Se o conjunto de dados não atender aos requisitos, a criação e o treinamento do modelo falharão. Você pode usar o explorador de modelos de dados para identificar um tipo de modelo a ser usado em seu caso de uso comercial e obter informações sobre os requisitos do conjunto de dados para o tipo de modelo identificado.

Explorador de modelos de dados

O explorador de modelos de dados é uma ferramenta no console do Amazon Fraud Detector que alinha seu caso de uso comercial com o tipo de modelo suportado pelo Amazon Fraud Detector. O explorador de modelos de dados também fornece informações sobre os elementos de dados exigidos pelo Amazon Fraud Detector para criar seu modelo de detecção de fraudes. Antes de começar a preparar seu conjunto de dados de eventos, use o explorador de modelos de dados para descobrir o tipo de modelo que o Amazon Fraud Detector recomenda para uso comercial e também para ver uma lista de elementos de dados obrigatórios, recomendados e opcionais que você precisará para criar seu conjunto de dados.

Para usar o explorador de modelos de dados,
  1. Abra o AWSManagement Console e faça login em sua conta. Navegue até o Amazon Fraud Detector.

  2. No painel de navegação à esquerda, escolha Explorador de modelos de dados.

  3. Na página Explorador de modelos de dados, em Caso de uso comercial, selecione o caso de uso comercial que você deseja avaliar quanto ao risco de fraude.

  4. O Amazon Fraud Detector exibe o tipo de modelo recomendado que corresponde ao seu caso de uso comercial. O tipo de modelo define os algoritmos, enriquecimentos e transformações que o Amazon Fraud Detector usará para treinar seu modelo de detecção de fraudes.

    Anote o tipo de modelo recomendado. Você precisará disso mais tarde ao criar seu modelo.

    nota

    Se você não encontrar seu caso de uso comercial, use o link entre em contato conosco na descrição para nos fornecer os detalhes do seu caso de uso comercial. Recomendaremos o tipo de modelo a ser usado para criar um modelo de detecção de fraudes para seu caso de uso comercial.

  5. O painel Informações do modelo de dados fornece informações sobre os elementos de dados obrigatórios, recomendados e opcionais necessários para criar e treinar um modelo de detecção de fraudes para seu caso de uso comercial. Use as informações no painel de insights para coletar os dados do seu evento e criar seu conjunto de dados.

Reúna dados de eventos do

Coletar os dados do seu evento é uma etapa importante na criação do seu modelo. Isso ocorre porque o desempenho do seu modelo na previsão de fraudes depende da qualidade do seu conjunto de dados. Ao começar a coletar os dados do evento, lembre-se da lista de elementos de dados que o Data Models Explorer forneceu para você criar seu conjunto de dados. Você precisará reunir todos os dados obrigatórios (metadados do evento) e decidir quais elementos de dados recomendados e opcionais (variáveis de evento) incluir com base em suas metas de criação do modelo. Também é importante decidir o formato de cada variável de evento que você pretende incluir e o tamanho total do seu conjunto de dados.

Qualidade do conjunto de dados de eventos

Para reunir um conjunto de dados de alta qualidade para seu modelo, recomendamos o seguinte:

  • Colete dados maduros - Usar os dados mais recentes ajuda a identificar o padrão de fraude mais recente. No entanto, para detectar casos de uso de fraudes, permita que os dados amadureçam. O período de maturidade depende da sua empresa e pode levar de duas semanas a três meses. Por exemplo, se seu evento incluir uma transação com cartão de crédito, o vencimento dos dados poderá ser determinado pelo período de estorno do cartão de crédito ou pelo tempo gasto pelo investigador para fazer a determinação.

    Certifique-se de que o conjunto de dados usado para treinar o modelo tenha tido tempo suficiente para amadurecer de acordo com sua empresa.

  • Certifique-se de que a distribuição de dados não varie significativamente: o processo de treinamento do Amazon Fraud Detector modela amostras e particiona seu conjunto de dados com base em EVENT_TIMESTAMP. Por exemplo, se seu conjunto de dados consistir em eventos de fraude retirados dos últimos 6 meses, mas somente o último mês de eventos legítimos for incluído, a distribuição de dados será considerada flutuante e instável. Um conjunto de dados instável pode levar a vieses na avaliação do desempenho do modelo. Se você achar que a distribuição de dados está mudando significativamente, considere equilibrar seu conjunto de dados coletando dados semelhantes à distribuição de dados atual.

  • Certifique-se de que o conjunto de dados seja representativo do caso de uso em que o modelo foi implementado/testado. Caso contrário, o desempenho estimado pode ser tendencioso. Digamos que você esteja usando um modelo para recusar automaticamente todos os candidatos internos, mas seu modelo é treinado com um conjunto de dados com dados/rótulos históricos que foram previamente aprovados. Então, a avaliação do seu modelo pode ser imprecisa porque a avaliação é baseada no conjunto de dados que não tem representação de candidatos recusados.

Formato de dados do evento

O Amazon Fraud Detector transforma a maioria dos seus dados no formato necessário como parte de seu processo de treinamento de modelos. No entanto, existem alguns formatos padrão que você pode usar facilmente para fornecer seus dados que podem ajudar a evitar problemas posteriores, quando o Amazon Fraud Detector validar seu conjunto de dados. A tabela a seguir fornece orientação sobre os formatos para fornecer os metadados de eventos recomendados.

nota

Ao criar seu arquivo CSV, certifique-se de inserir o nome dos metadados do evento conforme listado abaixo, em letras maiúsculas.

Nome dos metadados Formato Obrigatório

ID DO EVENTO

Se fornecido, ele deve atender aos seguintes requisitos:

  • É exclusivo para esse evento.

  • Ela representa informações que são significativas para sua empresa.

  • Ele segue o padrão de expressão regular (por exemplo,^[0-9a-z_-]+$.)

  • Além dos requisitos acima, recomendamos que você não acrescente um carimbo de data/hora ao EVENT_ID. Fazer isso pode causar problemas ao atualizar o evento. Isso porque você deve fornecer exatamente o mesmo EVENT_ID se fizer isso.

Depende do tipo de modelo

EVENT_TIMESTAMP

  • Ele deve ser especificado em um dos seguintes formatos:

    • %YYYYY-%MM-%DDT%HH: %mm: %sSz (padrão ISO 8601 em UTC somente sem milissegundos)

      Exemplo: 2019-11-30T 13:01:01 Z

    • %aaaa/%mm/%dd %h: %mm: %s (AM/PM)

      Exemplos: 2019/11/30 13:01:01 ou 2019/11/30 13:01:01

    • %mm/%dd/%aaaa %h: %mm: %s

      Exemplos: 30/11/2019 13:01:01, 30/11/2019 13:01:01

    • %mm/%dd/%y %h: %mm: %s

      Exemplos: 30/11/19 13:01:01 PM, 11/30/19 13:01:01

  • O Amazon Fraud Detector faz as seguintes suposições ao analisar formatos de data/hora para carimbos de data e hora de eventos:

    • Se você estiver usando o padrão ISO 8601, ele deve corresponder exatamente à especificação anterior

    • Se você estiver usando um dos outros formatos, há flexibilidade adicional:

      • Por meses e dias, você pode fornecer um ou dois dígitos. Por exemplo, 1/12/2019 é uma data válida.

      • Você não precisa incluir hh:mm:ss se não os tiver (ou seja, você pode simplesmente fornecer uma data). Você também pode fornecer um subconjunto de apenas horas e minutos (por exemplo, hh:mm). O simples fornecimento de horas não é suportado. Milissegundos também não são suportados.

      • Se você fornecer etiquetas AM/PM, presume-se que um relógio de 12 horas. Se não houver informações de AM/PM, presume-se que um relógio de 24 horas.

      • Você pode usar “/” ou “-” como delimitadores para os elementos de data. “:” é assumido para os elementos de timestamp.

Sim

ENTIDADE_ID

  • Ele deve seguir o padrão de expressão regular:^[0-9A-Za-z_.@+-]+$.

  • Se o ID da entidade não estiver disponível no momento da avaliação, especifique o ID da entidade como desconhecido.

Depende do tipo de modelo

TIPO_ENTIDADE

Você pode usar qualquer string

Depende do tipo de modelo

RÓTULO DO EVENTO

Você pode usar qualquer rótulo, como “fraude”, “legítimo”, “1" ou “0".

Obrigatório se LABEL_TIMESTAMP estiver incluído

LABEL_TIMESTAMP

Ele deve seguir o formato do carimbo de data/hora.

Obrigatório se EVENT_LABEL estiver incluído

Para obter informações sobre variáveis de evento, consulte Variáveis.

Importante

Se você estiver criando o modelo Account Takeover Insights (ATI), consultePreparar dados para obter detalhes sobre como preparar e selecionar dados.

Valores nulos ou faltantes

As variáveis EVENT_TIMESTAMP e EVENT_LABEL não devem conter valores nulos ou ausentes. Você pode ter valores nulos ou ausentes para outras variáveis. No entanto, recomendamos usar apenas um pequeno número nulo para essas variáveis. Se o Amazon Fraud Detector determinar que há muitos valores nulos ou ausentes para uma variável de evento, ele omitirá automaticamente a variável do seu modelo.

Variáveis mínimas

Ao criar seu modelo, o conjunto de dados deve incluir pelo menos duas variáveis de evento além dos metadados de evento necessários. As duas variáveis de evento devem passar pela verificação de validação.

Tamanho do conjunto de dados do evento

Obrigatório

Seu conjunto de dados deve atender aos seguintes requisitos básicos para um treinamento bem-sucedido de modelos.

  • Dados de pelo menos 100 eventos.

  • O conjunto de dados deve incluir pelo menos 50 eventos (linhas) classificados como fraudulentos.

Recomendado

Recomendamos que seu conjunto de dados inclua o seguinte para um treinamento bem-sucedido do modelo e um bom desempenho do modelo.

  • Inclua no mínimo três semanas de dados históricos, mas, no máximo, seis meses de dados.

  • Inclua um mínimo de 10 mil dados de eventos no total.

  • Inclua pelo menos 400 eventos (linhas) classificados como fraudulentos e 400 eventos (linhas) classificados como legítimos.

  • Inclua mais de 100 entidades exclusivas, se seu tipo de modelo exigir ENTITY_ID.

Validação do conjunto de dados

Antes de começar a criar seu modelo, o Amazon Fraud Detector verifica se as variáveis incluídas no conjunto de dados para treinamento do modelo atendem ao tamanho, formato e outros requisitos. Se o conjunto de dados não passar na validação, o modelo não será criado. Você deve primeiro corrigir as variáveis que não passaram na validação antes de criar o modelo. O Amazon Fraud Detector fornece um criador de perfil de dados que você pode usar para ajudá-lo a identificar e corrigir problemas com seu conjunto de dados antes de começar a treinar seu modelo.

Perfilador de dados

O Amazon Fraud Detector fornece uma ferramenta de código aberto para criar perfis e preparar seus dados para o treinamento de modelos. Esse criador de perfil de dados automatizado ajuda você a evitar erros comuns de preparação de dados e a identificar possíveis problemas, como tipos de variáveis mapeados incorretamente, que afetariam negativamente o desempenho do modelo. O criador de perfil gera um relatório intuitivo e abrangente do seu conjunto de dados, incluindo estatísticas de variáveis, distribuição de rótulos, análise categórica e numérica e correlações de variáveis e rótulos. Ele fornece orientação sobre tipos de variáveis, bem como uma opção para transformar o conjunto de dados em um formato exigido pelo Amazon Fraud Detector.

Usando o criador de perfil de dados

O criador de perfil de dados automatizado é construído com umaAWS CloudFormation pilha, que você pode iniciar facilmente com apenas alguns cliques. Todos os códigos estão disponíveis no Github. Para obter informações sobre como usar o Data Profiler, siga as instruções em nosso blog Treine modelos mais rapidamente com um criador de perfil de dados automatizado para o Amazon Fraud Detector

Erros comuns do conjunto de dados de eventos

A seguir estão alguns dos problemas comuns que o Amazon Fraud Detector encontra ao validar um conjunto de dados de eventos. Depois de executar o criador de perfil de dados, use essa lista para verificar se há erros no conjunto de dados antes de criar seu modelo.

  • O arquivo CSV não está no formato UTF-8.

  • O número de eventos no conjunto de dados é menor que 100.

  • O número de eventos identificados como fraudulentos ou legítimos é inferior a 50.

  • O número de entidades exclusivas associadas a um evento de fraude é inferior a 100.

  • Mais de 0,1% dos valores em EVENT_TIMESTAMP contêm nulos ou valores diferentes dos formatos de data/timestamp suportados.

  • Mais de 1% dos valores em EVENT_LABEL contêm nulos ou valores diferentes dos definidos no tipo de evento.

  • Menos de duas variáveis estão disponíveis para o treinamento do modelo.

Armazenamento de conjunto de dados

Depois de reunir o conjunto de dados, você o armazém internamente usando o Amazon Fraud Detector ou externamente com o Amazon Simple Storage Service (Amazon S3). Recomendamos que você escolha onde armazenar seu conjunto de dados com base no modelo usado para gerar previsões de fraude. Para obter mais informações sobre os tipos de modelo, consulte Escolher um tipo de modelo. Para obter mais informações sobre como armazenar seu conjunto de dados, consulteArmazenamento de dados de eventos.