Informações sobre fraudes on-line - Amazon Fraud Detector

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Informações sobre fraudes on-line

O Online Fraud Insights é um modelo de aprendizado de máquina supervisionado, o que significa que ele usa exemplos históricos de transações fraudulentas e legítimas para treinar o modelo. O modelo Online Fraud Insights pode detectar fraudes com base em poucos dados históricos. As entradas do modelo são flexíveis, então você pode adaptá-lo para detectar uma variedade de riscos de fraude, incluindo avaliações falsas, abuso de promoções e fraudes no check-out de hóspedes.

O modelo Online Fraud Insights usa um conjunto de algoritmos de aprendizado de máquina para enriquecimento, transformação e classificação de fraudes de dados. Como parte do processo de treinamento do modelo, o Online Fraud Insights enriquece elementos de dados brutos, como endereço IP e número BIN, com dados de terceiros, como a geolocalização do endereço IP ou o banco emissor de um cartão de crédito. Além de dados de terceiros, o Online Fraud Insights usa algoritmos de aprendizado profundo que levam em consideração os padrões de fraude observados na Amazon AWS e. Esses padrões de fraude se tornam recursos de entrada para seu modelo usando um algoritmo de aumento de árvore de gradiente.

Para aumentar o desempenho, o Online Fraud Insights otimiza os hiperparâmetros do algoritmo de aumento da árvore de gradiente por meio de um processo de otimização bayesiano. Ele treina sequencialmente dezenas de modelos diferentes com parâmetros de modelo variados (como número de árvores, profundidade das árvores e número de amostras por folha). Ele também usa diferentes estratégias de otimização, como aumentar a população minoritária de fraudes, para lidar com taxas de fraude muito baixas.

Seleção da fonte de dados

Ao treinar um modelo do Online Fraud Insights, você pode escolher treinar o modelo em dados de eventos armazenados externamente (fora do Amazon Fraud Detector) ou armazenados no Amazon Fraud Detector. O armazenamento externo que o Amazon Fraud Detector suporta atualmente é o Amazon Simple Storage Service (Amazon S3). Se você estiver usando armazenamento externo, seu conjunto de dados do evento deve ser carregado no formato de valores separados por vírgula (CSV) em um bucket do Amazon S3. Essas opções de armazenamento de dados são chamadas na configuração de treinamento do modelo como EXTERNAL_EVENTS (para armazenamento externo) e INGESTED_EVENTS (para armazenamento interno). Para obter mais informações sobre as fontes de dados disponíveis e como armazenar dados nelas, consulteArmazenamento de dados de eventos.

Preparar dados

Independentemente de onde você escolher armazenar os dados do seu evento (Amazon S3 ou Amazon Fraud Detector), os requisitos para o tipo de modelo do Online Fraud Insights são os mesmos.

Seu conjunto de dados deve conter o cabeçalho da coluna EVENT_LABEL. Essa variável classifica um evento como fraudulento ou legítimo. Ao usar um arquivo CSV (armazenamento externo), você deve incluir EVENT_LABEL para cada evento no arquivo. Para armazenamento interno, o campo EVENT_LABEL é opcional, mas todos os eventos devem ser rotulados para serem incluídos em um conjunto de dados de treinamento. Ao configurar seu modelo de treinamento, você pode escolher se deseja ignorar eventos não rotulados, assumir um rótulo legítimo para eventos não rotulados ou assumir um rótulo fraudulento para todos os eventos não rotulados.

Seleção de dados

Consulte Coletar dados de eventos para obter informações sobre como selecionar dados para treinar seu modelo Online Fraud Insights.

O processo de treinamento do Online Fraud Insights mostra e divide dados históricos com base em EVENT_TIMESTAMP. Não há necessidade de amostrar manualmente os dados, e isso pode afetar negativamente os resultados do seu modelo.

Variáveis do evento

O modelo Online Fraud Insights exige pelo menos duas variáveis, além dos metadados de eventos necessários, que passaram pela validação de dados para o treinamento do modelo e permitem até 100 variáveis por modelo. Geralmente, quanto mais variáveis você fornece, melhor o modelo pode diferenciar entre fraude e eventos legítimos. Embora o modelo Online Fraud Insights possa suportar dezenas de variáveis, incluindo variáveis personalizadas, recomendamos incluir endereço IP e endereço de e-mail, pois essas variáveis geralmente são mais eficazes na identificação da entidade que está sendo avaliada.

Validando dados

Como parte do processo de treinamento, o Online Fraud Insights validará o conjunto de dados para problemas de qualidade de dados que possam afetar o treinamento do modelo. Depois de validar os dados, o Amazon Fraud Detector tomará as medidas apropriadas para criar o melhor modelo possível. Isso inclui emitir avisos sobre possíveis problemas de qualidade de dados, remover automaticamente variáveis com problemas de qualidade de dados ou emitir um erro e interromper o processo de treinamento do modelo. Para obter mais informações, consulte validação do conjunto de dados.