Set di dati di evento - Amazon Fraud Detector

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Set di dati di evento

Un set di dati sugli eventi è costituito dai dati storici relativi alle frodi della tua azienda. Fornisci questi dati ad Amazon Fraud Detector per creare modelli di rilevamento delle frodi.

Amazon Fraud Detector utilizza modelli di apprendimento automatico per generare previsioni di frode. Ogni modello viene addestrato utilizzando un tipo di modello. Il tipo di modello specifica gli algoritmi e le trasformazioni utilizzati per addestrare il modello. La formazione dei modelli è il processo di utilizzo di un set di dati fornito per creare un modello in grado di prevedere eventi fraudolenti. Per ulteriori informazioni, consulta Come funziona Amazon Fraud Detector

Il set di dati utilizzato per creare un modello di rilevamento delle frodi fornisce i dettagli di un evento. Un evento è un'attività aziendale valutata per il rischio di frode. Ad esempio, la registrazione di un account può essere un evento. I dati associati all'evento di registrazione dell'account possono essere set di dati di eventi. Amazon Fraud Detector utilizza questo set di dati per valutare le frodi nella registrazione degli account.

Prima di fornire il set di dati ad Amazon Fraud Detector per la creazione di un modello, assicurati di definire l'obiettivo per la creazione del modello. È inoltre necessario determinare come si desidera utilizzare il modello e definire le metriche per valutare se il modello funziona in base ai requisiti specifici.

Ad esempio, i tuoi obiettivi per la creazione di un modello di rilevamento delle frodi che valuti le frodi nella registrazione degli account possono essere i seguenti:

  • Per approvare automaticamente le registrazioni legittime.

  • Per acquisire registrazioni fraudolente per indagini successive.

Dopo aver determinato l'obiettivo, il passaggio successivo consiste nel decidere come utilizzare il modello. Alcuni esempi di utilizzo del modello di rilevamento delle frodi per valutare le frodi di registrazione sono i seguenti:

  • Per il rilevamento delle frodi in tempo reale per ogni registrazione dell'account.

  • Per la valutazione offline di tutte le registrazioni degli account ogni ora.

Alcuni esempi di metriche che possono essere utilizzate per misurare le prestazioni del modello sono i seguenti:

  • Ha prestazioni costantemente migliori rispetto all'attuale linea di base in termini di produzione.

  • Registra registrazioni fraudolente del X% con una percentuale di falsi positivi dell'Y%.

  • Accetta fino al 5% delle registrazioni approvate automaticamente che sono fraudolente.

Struttura del set di dati di evento

Amazon Fraud Detector richiede che tu fornisca il set di dati degli eventi in un file di testo utilizzando valori separati da virgole (CSV) nel formato UTF-8. La prima riga del file del set di dati CSV deve contenere le intestazioni dei file. L'intestazione del file è composta da metadati e variabili di evento che descrivono ogni elemento di dati associato all'evento. L'intestazione è seguita dai dati dell'evento. Ogni riga è composta da elementi di dati provenienti da un singolo evento.

  • Metadati dell'evento: forniscono informazioni sull'evento. Ad esempio, EVENT_TIMESTAMP è un metadato di evento che specifica l'ora in cui si è verificato l'evento. A seconda del caso d'uso aziendale e del tipo di modello utilizzato per creare e addestrare il modello di rilevamento delle frodi, Amazon Fraud Detector richiede di fornire metadati specifici degli eventi. Quando specifichi i metadati degli eventi nell'intestazione del file CSV, utilizza lo stesso nome dei metadati dell'evento specificato da Amazon Fraud Detector e usa solo lettere maiuscole.

  • Variabile evento: rappresenta gli elementi di dati specifici del tuo evento che desideri utilizzare per creare e addestrare il tuo modello di rilevamento delle frodi. A seconda del caso d'uso aziendale e del tipo di modello utilizzato per creare e addestrare un modello di rilevamento delle frodi, Amazon Fraud Detector potrebbe richiedere o consigliare di fornire variabili di evento specifiche. Facoltativamente, puoi anche fornire altre variabili di evento del tuo evento che desideri includere nell'addestramento del modello. Alcuni esempi di variabili di evento per un evento di registrazione online possono essere l'indirizzo e-mail, l'indirizzo IP e il numero di telefono. Quando specifichi il nome della variabile di evento nell'intestazione del file CSV, usa qualsiasi nome di variabile di tua scelta e usa solo lettere minuscole.

  • Dati dell'evento: rappresenta i dati raccolti dall'evento effettivo. Nel file CSV, ogni riga che segue l'intestazione del file è composta da elementi di dati provenienti da un singolo evento. Ad esempio, in un file di dati di un evento di registrazione online, ogni riga contiene i dati di una singola registrazione. Ogni elemento di dati nella riga deve corrispondere ai metadati dell'evento o alla variabile evento corrispondenti.

Di seguito viene riportato un esempio di un esempio di un file .V contenente i dati di un evento di registrazione di account. La riga di intestazione contiene sia i metadati degli eventi in maiuscolo che le variabili degli eventi in lettere minuscole seguite dai dati dell'evento. Ogni riga del set di dati contiene elementi di dati associati alla registrazione di un singolo account e ogni elemento di dati corrisponde all'intestazione.

CSV file showing event metadata and variables with sample data for account registration events.

Ottieni i requisiti dei set di dati di eventi utilizzando Data models explorer

Il tipo di modello scelto per creare il modello definisce i requisiti per il set di dati. Amazon Fraud Detector utilizza il set di dati fornito per creare e addestrare il tuo modello di rilevamento delle frodi. Prima di iniziare a creare il modello, Amazon Fraud Detector verifica se il set di dati soddisfa le dimensioni, il formato e altri requisiti. Se il set di dati non soddisfa i requisiti, la creazione e l'addestramento del modello falliscono. È possibile utilizzare Data Models Explorer per identificare un tipo di modello da utilizzare per il caso d'uso aziendale e per ottenere informazioni sui requisiti del set di dati per il tipo di modello identificato.

Esplora modelli di dati

Data Models Explorer è uno strumento della console Amazon Fraud Detector che allinea il tuo caso d'uso aziendale al tipo di modello supportato da Amazon Fraud Detector. L'esploratore di modelli di dati fornisce anche informazioni sugli elementi di dati richiesti da Amazon Fraud Detector per creare il tuo modello di rilevamento delle frodi. Prima di iniziare a preparare il set di dati degli eventi, utilizza Data Models Explorer per individuare il tipo di modello consigliato da Amazon Fraud Detector per l'uso aziendale e anche per visualizzare un elenco di elementi di dati obbligatori, consigliati e opzionali necessari per creare il set di dati.

Per utilizzare Data Models Explorer,
  1. Apri la console diAWS gestione e accedi al tuo account. Vai ad Amazon Fraud Detector.

  2. Nel pannello di navigazione a sinistra seleziona Data models explorer.

  3. Nella pagina Esplora modelli di dati, in Caso d'uso aziendale, seleziona il caso d'uso aziendale che desideri valutare per il rischio di frode.

  4. Amazon Fraud Detector mostra il tipo di modello consigliato che corrisponde al caso d'uso aziendale. Il tipo di modello definisce gli algoritmi, gli arricchimenti e le trasformazioni che Amazon Fraud Detector utilizzerà per addestrare il tuo modello di rilevamento delle frodi.

    Prendi nota del tipo di modello consigliato. Ne avrai bisogno in seguito quando creerai il tuo modello.

    Nota

    Se non trovi il tuo caso d'uso aziendale, utilizza il link «raggiungici» nella descrizione per fornirci i dettagli del tuo caso d'uso aziendale. Ti consiglieremo il tipo di modello da utilizzare per creare un modello di rilevamento delle frodi per il tuo caso d'uso aziendale.

  5. Il riquadro di analisi dei modelli di dati fornisce informazioni sugli elementi di dati obbligatori, consigliati e opzionali necessari per creare e addestrare un modello di rilevamento delle frodi adatto al tuo caso d'uso aziendale. Utilizza le informazioni nel riquadro degli approfondimenti per raccogliere i dati degli eventi e creare il set di dati.

Raccogli i dati di evento

La raccolta dei dati degli eventi è un passaggio importante nella creazione del modello. Questo perché le prestazioni del modello nella previsione delle frodi dipendono dalla qualità del set di dati. Quando inizi a raccogliere i dati degli eventi, tieni presente l'elenco degli elementi di dati che Data models explorer ti ha fornito per creare il tuo set di dati. Dovrai raccogliere tutti i dati obbligatori (metadati degli eventi) e decidere quali elementi di dati consigliati e facoltativi (variabili di evento) includere in base ai tuoi obiettivi per la creazione del modello. È anche importante decidere il formato di ogni variabile di evento che intendi includere e la dimensione totale del set di dati.

Qualità dei set di dati degli eventi

Per raccogliere set di dati di alta qualità per il modello, è consigliabile:

  • Raccogli dati maturi: l'utilizzo dei dati più recenti aiuta a identificare il modello di frode più recente. Tuttavia, per individuare i casi di utilizzo fraudolento, attendi la maturazione dei dati. Il periodo di scadenza dipende dalla tua attività e può richiedere da due settimane a tre mesi. Ad esempio, se l'evento include una transazione con carta di credito, la scadenza dei dati potrebbe essere determinata dal periodo di addebito della carta di credito o dal tempo impiegato da un investigatore per prendere una decisione.

    Assicurati che il set di dati utilizzato per addestrare il modello abbia avuto il tempo sufficiente per maturare in base alla tua azienda.

  • Assicurati che la distribuzione dei dati non subisca variazioni significative: il processo di formazione del modello Amazon Fraud Detector, campiona e partiziona il tuo set di dati in base a EVENT_TIMESTAMP. Ad esempio, se il set di dati è composto da eventi fraudolenti estratti dagli ultimi 6 mesi, ma sono inclusi solo l'ultimo mese di eventi legittimi, la distribuzione dei dati è considerata errata e instabile. Un set di dati instabile potrebbe portare a distorsioni nella valutazione delle prestazioni del modello. Se ritieni che la distribuzione dei dati stia subendo variazioni significative, valuta la possibilità di bilanciare il set di dati raccogliendo dati simili all'attuale distribuzione dei dati.

  • Assicurati che il set di dati sia rappresentativo del caso d'uso in cui il modello è implementato/testato. Altrimenti, le prestazioni stimate potrebbero essere distorte. Supponiamo che tu stia utilizzando un modello per rifiutare automaticamente tutti i candidati interni, ma che il tuo modello sia addestrato con un set di dati storici e etichette precedentemente approvati. Quindi, la valutazione del modello potrebbe essere imprecisa perché la valutazione si basa sul set di dati che non include la rappresentazione dei candidati rifiutati.

Formato dei dati dell'evento

Amazon Fraud Detector trasforma la maggior parte dei tuoi dati nel formato richiesto come parte del processo di formazione dei modelli. Tuttavia, esistono alcuni formati standard che puoi usare facilmente per fornire i tuoi dati che possono aiutarti a evitare problemi in seguito, quando Amazon Fraud Detector convalida il tuo set di dati. La tabella seguente fornisce indicazioni sui formati per fornire i metadati degli eventi consigliati.

Nota

Quando crei il tuo file CSV, assicurati di inserire il nome dei metadati dell'evento come elencato di seguito, in lettere maiuscole.

Nome dei metadati Formato Obbligatorio

ID_EVENTO

Se fornito, deve soddisfare i seguenti requisiti:

  • È unico per quell'evento.

  • Rappresenta informazioni significative per la tua attività.

  • Segue lo schema delle espressioni regolari (ad esempio,^[0-9a-z_-]+$.)

  • Oltre ai requisiti di cui sopra, ti consigliamo di non aggiungere un timestamp a EVENT_ID. Questa operazione potrebbe causare problemi durante l'aggiornamento dell'evento. Questo perché devi fornire esattamente lo stesso EVENT_ID se lo fai.

Dipende dal tipo di modello

TIMESTAMP DELL'EVENTO

  • Deve essere specificato in uno dei seguenti formati:

    • %YYYy-%mm-%DDt%hH: %mm: %sSz (standard ISO 8601 solo in UTC senza millisecondi)

      Esempio: 2019-11-30T 13:01:01 Z

    • %aaaa/%mm/%dd %hh: %mm: %ss (AM/PM)

      Esempi: 30/11/2019 13:01:01 o 30/11/2019 13:01:01

    • %mm/%gd/%aaaa %hh: %mm: %ss

      Esempi: 30/11/2019 13:01:01, 30/11/2019 13:01:01

    • %mm/%dd/%yy %hh: %mm: %ss

      Esempi: 30/11/19 13:01:01 PM, 30/11/19 13:01:01

  • Amazon Fraud Detector fa le seguenti ipotesi quando analizza i formati di data/ora per i timestamp degli eventi:

    • Se si utilizza lo standard ISO 8601, deve corrispondere esattamente alla specifica precedente

    • Se si utilizza uno degli altri formati, è disponibile una flessibilità aggiuntiva:

      • Per mesi e giorni, puoi fornire cifre singole o doppie. Ad esempio, 1/12/2019 è una data valida.

      • Non è necessario includere hh:mm:ss se non li avete (cioè, potete semplicemente fornire una data). Puoi anche fornire un sottoinsieme delle sole ore e minuti (ad esempio, hh:mm). La semplice indicazione dell'ora non è supportata. Anche i millisecondi non sono supportati.

      • Se si forniscono etichette AM/PM, si presume un orologio di 12 ore. Se non sono disponibili informazioni AM/PM, si presume che l'orologio sia attivo 24 ore su 24.

      • È possibile utilizzare «/» o «-» come delimitatori per gli elementi della data. «:» è assunto per gli elementi del timestamp.

ENTITY_ID

  • Deve seguire lo schema delle espressioni regolari:^[0-9A-Za-z_.@+-]+$.

  • Se l'ID dell'entità non è disponibile al momento della valutazione, specifica l'ID dell'entità come sconosciuto.

Dipende dal tipo di modello

TIPO_ENTITÀ

È possibile utilizzare qualsiasi stringa

Dipende dal tipo di modello

ETICHETTA_EVENTO

Puoi utilizzare qualsiasi etichetta, come «frode», «legittimo», «1" o «0".

Obbligatorio se LABEL_TIMESTAMP è incluso

TIMESTAMP DELL'ETICHETTA

Deve seguire il formato del timestamp.

Obbligatorio se EVENT_LABEL è incluso

Per informazioni sulle variabili di evento, vedere Variabili.

Importante

Se stai creando un modello Account Takeover Insights (ATI), consultaPreparazione dei dati i dettagli sulla preparazione e la selezione dei dati.

Valori nulli o mancanti

Le variabili EVENT_TIMESTAMP ed EVENT_LABEL non devono contenere valori nulli o mancanti. Puoi avere valori nulli o mancanti per altre variabili. Consigliamo, tuttavia, di utilizzare solo un numero piccolo di nulli per tali variabili. Se Amazon Fraud Detector rileva che ci sono troppi valori nulli o mancanti per una variabile di evento, ometterà automaticamente una variabile dal tuo modello.

Variabili minime

Quando si crea il modello, il set di dati deve includere almeno due variabili di evento oltre ai metadati degli eventi richiesti. Le due variabili di evento devono superare il controllo di convalida.

Dimensione del set di dati dell'evento

Obbligatorio

Il set di dati deve soddisfare i seguenti requisiti di base per una corretta formazione del modello.

  • Dati relativi ad almeno 100 eventi.

  • Il set di dati deve includere almeno 50 eventi (righe) classificati come fraudolenti.

Consigliato

Consigliamo che il set di dati includa quanto segue per un addestramento efficace del modello e buone prestazioni del modello.

  • Includi un minimo di tre settimane di dati storici, ma al massimo sei mesi di dati.

  • Includi un minimo di 10.000 dati totali sugli eventi.

  • Includi almeno 400 eventi (righe) classificati come fraudolenti e 400 eventi (righe) classificati come legittimi.

  • Includi più di 100 entità uniche, se il tipo di modello richiede ENTITY_ID.

Convalida del set di dati

Prima che Amazon Fraud Detector inizi a creare il modello, verifica se le variabili incluse nel set di dati per addestrare il modello soddisfano le dimensioni, il formato e altri requisiti. Se il set di dati non supera la convalida, il modello non viene creato. È necessario innanzitutto correggere le variabili che non hanno superato la convalida prima di creare il modello. Amazon Fraud Detector ti offre un Data profiler che puoi utilizzare per aiutarti a identificare e risolvere i problemi con il tuo set di dati prima di iniziare ad addestrare il tuo modello

Profilatore di dati

Amazon Fraud Detector fornisce uno strumento open source per la profilazione e la preparazione dei dati per la formazione dei modelli. Questo profiler di dati automatizzato consente di evitare errori comuni di preparazione dei dati e di identificare potenziali problemi come tipi di variabili mappati in modo errato che potrebbero influire negativamente sulle prestazioni del modello. Il profiler genera un report intuitivo e completo del set di dati, che include statistiche variabili, distribuzione delle etichette, analisi categoriali e numeriche e correlazioni tra variabili ed etichette. Fornisce indicazioni sui tipi di variabili e un'opzione per trasformare il set di dati in un formato richiesto da Amazon Fraud Detector.

Utilizzo del data profiler

Il data profiler automatizzato è costruito con unoAWS CloudFormation stack, che puoi avviare facilmente con pochi clic. Tutti i codici sono disponibili su Github. Per informazioni su come utilizzare il data profiler, segui le indicazioni nel nostro blog Addestra i modelli più velocemente con un data profiler automatico per Amazon Fraud Detector

Errori comuni dei set di dati degli eventi

Di seguito sono riportati alcuni dei problemi più comuni riscontrati da Amazon Fraud Detector durante la convalida di un set di dati di eventi. Dopo aver eseguito il data profiler, utilizza questo elenco per verificare la presenza di errori nel set di dati prima di creare il modello.

  • Il file .V. non è nel formato UTF-8.

  • Il numero di eventi nel set di dati è inferiore a 100.

  • Il numero di eventi identificati come fraudolenti o legittimi è inferiore a 50.

  • Il numero di entità uniche associate a un evento di frode è inferiore a 100.

  • Più dello 0,1% dei valori in EVENT_TIMESTAMP contiene valori nulli o diversi dai formati data/ora supportati.

  • Più dell'1% dei valori in EVENT_LABEL contiene valori nulli o diversi da quelli definiti nel tipo di evento.

  • Sono disponibili meno di due variabili per l'addestramento dei modelli.

Memorizzazione di set di dati

Dopo aver raccolto il set di dati, è possibile archiviarlo internamente utilizzando Amazon Fraud Detector o esternamente con Amazon Simple Storage Service (Amazon S3). Ti consigliamo di scegliere dove archiviare il set di dati in base al modello utilizzato per generare previsioni di frode. Per ulteriori informazioni sui tipi di modello, consulta Scegliere un tipo di modello. Per ulteriori informazioni sulla memorizzazione del set di dati, consultaArchiviazione dati eventi.