Struttura del set di dati degli eventi Ottieni i requisiti del set di dati degli eventi utilizzando Data models explorer Raccogli dati sugli eventi Convalida del set di dati Archiviazione di set di dati

Set di dati degli eventi

Un set di dati sugli eventi è costituito dai dati storici sulle frodi della tua azienda. Fornisci questi dati ad Amazon Fraud Detector per creare modelli di rilevamento delle frodi.

Amazon Fraud Detector utilizza modelli di apprendimento automatico per generare previsioni di frode. Ogni modello viene addestrato utilizzando un tipo di modello. Il tipo di modello specifica gli algoritmi e le trasformazioni utilizzati per addestrare il modello. L'addestramento del modello è il processo di utilizzo di un set di dati fornito dall'utente per creare un modello in grado di prevedere eventi fraudolenti. Per ulteriori informazioni, consulta Come funziona Amazon Fraud Detector

Il set di dati utilizzato per creare il modello di rilevamento delle frodi fornisce i dettagli di un evento. Un evento è un'attività aziendale valutata per il rischio di frode. Ad esempio, la registrazione di un account può essere un evento. I dati associati all'evento di registrazione dell'account possono essere set di dati di eventi. Amazon Fraud Detector utilizza questo set di dati per valutare le frodi relative alla registrazione degli account.

Prima di fornire il set di dati ad Amazon Fraud Detector per creare un modello, assicurati di definire l'obiettivo per la creazione del modello. È inoltre necessario determinare come utilizzare il modello e definire le metriche per valutare se il modello funziona in base ai requisiti specifici.

Ad esempio, i vostri obiettivi per la creazione di un modello di rilevamento delle frodi che valuti le frodi relative alla registrazione degli account possono essere i seguenti:

Per approvare automaticamente le registrazioni legittime.
Per acquisire registrazioni fraudolente per indagini successive.

Dopo aver determinato l'obiettivo, il passaggio successivo consiste nel decidere come utilizzare il modello. Di seguito sono riportati alcuni esempi di utilizzo del modello di rilevamento delle frodi per valutare le frodi relative alla registrazione:

Per il rilevamento delle frodi in tempo reale per ogni registrazione di account.
Per la valutazione offline di tutte le registrazioni degli account ogni ora.

Alcuni esempi di metriche che possono essere utilizzate per misurare le prestazioni del modello includono:

Prestazioni costantemente migliori rispetto all'attuale baseline di produzione.
Registra le registrazioni fraudolente del X% con una percentuale di falsi positivi del Y%.
Accetta fino al 5% delle registrazioni fraudolente approvate automaticamente.

Struttura del set di dati degli eventi

Amazon Fraud Detector richiede di fornire il set di dati degli eventi in un file di testo utilizzando valori separati da virgole (CSV) nel formato UTF-8. La prima riga del file del set di dati CSV deve contenere le intestazioni dei file. L'intestazione del file è composta da metadati di eventi e variabili di evento che descrivono ogni elemento di dati associato all'evento. L'intestazione è seguita dai dati dell'evento. Ogni riga è composta da elementi di dati provenienti da un singolo evento.

Metadati dell'evento: forniscono informazioni sull'evento. Ad esempio, EVENT_TIMESTAMP è un metadato di evento che specifica l'ora in cui si è verificato l'evento. A seconda del caso d'uso aziendale e del tipo di modello utilizzato per creare e addestrare il modello di rilevamento delle frodi, Amazon Fraud Detector richiede di fornire metadati di eventi specifici. Quando specifichi i metadati degli eventi nell'intestazione del file CSV, usa lo stesso nome di metadati dell'evento specificato da Amazon Fraud Detector e usa solo lettere maiuscole.
Variabile evento: rappresenta gli elementi di dati specifici del tuo evento che desideri utilizzare per creare e addestrare il tuo modello di rilevamento delle frodi. A seconda del caso d'uso aziendale e del tipo di modello utilizzato per creare e addestrare un modello di rilevamento delle frodi, Amazon Fraud Detector potrebbe richiedere o consigliare di fornire variabili di evento specifiche. Facoltativamente, puoi anche fornire altre variabili relative all'evento da includere nella formazione del modello. Alcuni esempi di variabili di evento per un evento di registrazione online possono essere l'indirizzo e-mail, l'indirizzo IP e il numero di telefono. Quando specificate il nome della variabile di evento nell'intestazione del file CSV, utilizzate qualsiasi nome di variabile di vostra scelta e utilizzate solo lettere minuscole.
Dati dell'evento: rappresentano i dati raccolti dall'evento effettivo. Nel file CSV, ogni riga che segue l'intestazione del file è composta da elementi di dati relativi a un singolo evento. Ad esempio, in un file di dati di un evento di registrazione online, ogni riga contiene i dati di una singola registrazione. Ogni elemento di dati nella riga deve corrispondere ai metadati dell'evento corrispondenti o alla variabile dell'evento.

Di seguito è riportato un esempio di file CSV contenente i dati di un evento di registrazione dell'account. La riga di intestazione contiene sia i metadati degli eventi in maiuscolo che le variabili di evento in minuscolo seguiti dai dati dell'evento. Ogni riga del set di dati contiene elementi di dati associati alla registrazione di un singolo account con ogni elemento di dati corrispondente all'intestazione.

CSV file showing event metadata and variables with sample data for account registration events.

Ottieni i requisiti del set di dati degli eventi utilizzando Data models explorer

Il tipo di modello scelto per creare il modello definisce i requisiti per il set di dati. Amazon Fraud Detector utilizza il set di dati che fornisci per creare e addestrare il tuo modello di rilevamento delle frodi. Prima che Amazon Fraud Detector inizi a creare il tuo modello, verifica se il set di dati soddisfa i requisiti di dimensione, formato e altri requisiti. Se il set di dati non soddisfa i requisiti, la creazione e l'addestramento del modello falliscono. Puoi utilizzare il Data Models Explorer per identificare un tipo di modello da utilizzare per il tuo caso d'uso aziendale e per ottenere informazioni sui requisiti del set di dati per il tipo di modello identificato.

Esplora modelli di dati

Il data models explorer è uno strumento nella console Amazon Fraud Detector che allinea il tuo caso d'uso aziendale al tipo di modello supportato da Amazon Fraud Detector. Il data models explorer fornisce anche informazioni sugli elementi di dati richiesti da Amazon Fraud Detector per creare il tuo modello di rilevamento delle frodi. Prima di iniziare a preparare il set di dati degli eventi, utilizza l'esploratore dei modelli di dati per scoprire il tipo di modello consigliato da Amazon Fraud Detector per il tuo uso aziendale e anche per visualizzare un elenco di elementi di dati obbligatori, consigliati e facoltativi necessari per creare il tuo set di dati.

Per utilizzare Data Models Explorer,

Apri la console di AWS gestione e accedi al tuo account. Accedi ad Amazon Fraud Detector.
Nel riquadro di navigazione a sinistra, scegli Data models explorer.
Nella pagina Data models explorer, in Caso d'uso aziendale, seleziona il caso d'uso aziendale che desideri valutare per il rischio di frode.
Amazon Fraud Detector mostra il tipo di modello consigliato che corrisponde al tuo caso d'uso aziendale. Il tipo di modello definisce gli algoritmi, gli arricchimenti e le trasformazioni che Amazon Fraud Detector utilizzerà per addestrare il tuo modello di rilevamento delle frodi.

Prendi nota del tipo di modello consigliato. Ti servirà in seguito quando creerai il tuo modello.

Nota
Se non trovi il tuo caso d'uso aziendale, utilizza il link Contattaci nella descrizione per fornirci i dettagli del tuo caso d'uso aziendale. Ti consiglieremo il tipo di modello da utilizzare per creare un modello di rilevamento delle frodi per il tuo caso d'uso aziendale.
Il riquadro Data model Insights fornisce informazioni sugli elementi di dati obbligatori, consigliati e facoltativi necessari per creare e addestrare un modello di rilevamento delle frodi per il tuo caso d'uso aziendale. Utilizza le informazioni nel riquadro Insights per raccogliere i dati sugli eventi e creare il tuo set di dati.

Raccogli dati sugli eventi

La raccolta dei dati relativi agli eventi è un passaggio importante nella creazione del modello. Questo perché le prestazioni del modello nella previsione delle frodi dipendono dalla qualità del set di dati. Quando inizi a raccogliere i dati sugli eventi, tieni presente l'elenco degli elementi di dati che Data models explorer ti ha fornito per creare il tuo set di dati. Dovrai raccogliere tutti i dati obbligatori (metadati degli eventi) e decidere quali elementi di dati consigliati e facoltativi (variabili di evento) includere in base agli obiettivi prefissati per la creazione del modello. È anche importante decidere il formato di ogni variabile di evento che intendi includere e la dimensione totale del set di dati.

Qualità del set di dati degli eventi

Per raccogliere set di dati di alta qualità per il tuo modello, ti consigliamo quanto segue:

Raccogli dati maturi: l'utilizzo dei dati più recenti aiuta a identificare i modelli di frode più recenti. Tuttavia, per individuare casi d'uso fraudolenti, consenti ai dati di maturare. Il periodo di maturità dipende dall'azienda e può durare da due settimane a tre mesi. Ad esempio, se l'evento include transazioni con carta di credito, la maturità dei dati potrebbe essere determinata dal periodo di riaddebito della carta di credito o dal tempo impiegato da un investigatore per determinarla.

Assicuratevi che il set di dati utilizzato per addestrare il modello abbia avuto un tempo sufficiente per maturare secondo le esigenze aziendali.
Assicurati che la distribuzione dei dati non subisca variazioni significative: il modello di addestramento di Amazon Fraud Detector esemplifica il processo di addestramento e partiziona il set di dati in base a EVENT_TIMESTAMP. Ad esempio, se il set di dati è composto da eventi di frode tratti dagli ultimi 6 mesi, ma è incluso solo l'ultimo mese di eventi legittimi, la distribuzione dei dati è considerata instabile e irregolare. Un set di dati instabile potrebbe portare a distorsioni nella valutazione delle prestazioni del modello. Se ritieni che la distribuzione dei dati stia variando in modo significativo, valuta la possibilità di bilanciare il set di dati raccogliendo dati simili alla distribuzione dei dati corrente.
Assicurati che il set di dati sia rappresentativo del caso d'uso in cui il modello è implementato/testato, altrimenti le prestazioni stimate potrebbero essere distorte. Supponiamo che tu stia utilizzando un modello per rifiutare automaticamente tutti i candidati interni, ma che il modello sia stato addestrato con un set di dati contenente dati/etichette storici approvati in precedenza. Quindi, la valutazione del modello potrebbe essere imprecisa perché si basa sul set di dati che non è rappresentato dai candidati rifiutati.

Formato dei dati dell'evento

Amazon Fraud Detector trasforma la maggior parte dei tuoi dati nel formato richiesto come parte del processo di formazione del modello. Tuttavia, ci sono alcuni formati standard che puoi usare facilmente per fornire i tuoi dati che possono aiutarti a evitare problemi in un secondo momento, quando Amazon Fraud Detector convalida il tuo set di dati. La tabella seguente fornisce indicazioni sui formati per fornire i metadati degli eventi consigliati.

Nota

Quando crei il file CSV, assicurati di inserire il nome dei metadati dell'evento come elencato di seguito, in lettere maiuscole.

Nome dei metadati	Formato	Richiesto
EVENT_ID	Se fornito, deve soddisfare i seguenti requisiti: È unico per quell'evento. Rappresenta informazioni significative per la tua attività. Segue lo schema delle espressioni regolari (ad esempio, `^[0-9a-z_-]+$.)` Oltre ai requisiti di cui sopra, ti consigliamo di non aggiungere un timestamp a EVENT_ID. Questa operazione potrebbe causare problemi durante l'aggiornamento dell'evento. Questo perché è necessario fornire esattamente lo stesso EVENT_ID se si esegue questa operazione.	Dipende dal tipo di modello
EVENT_TIMESTAMP	Deve essere specificato in uno dei seguenti formati: %yyyy-%mm-%ddt%hH: %mm: %sSz (solo standard ISO 8601 in UTC senza millisecondi) Esempio: 2019-11-30T 13:01:01 Z %yyyy/%mm/%dd %hh: %mm: %ss (AM/PM) Esempi: 2019/11/30 13:01:01 PM o 2019/11/30 13:01:01 %mm/%dd/%yyyy %hh: %mm: %ss Esempi: 30/11/2019 13:01:01 PM, 30/11/2019 13:01:01 %mm/%dd/%yy %h: %mm: %ss Esempi: 30/11/19 1:01:01 PM, 30/11/19 13:01:01 Amazon Fraud Detector fa i seguenti presupposti quando analizza i formati di data/ora per i timestamp degli eventi: Se utilizzi lo standard ISO 8601, deve corrispondere esattamente alla specifica precedente Se si utilizza uno degli altri formati, è disponibile una flessibilità aggiuntiva: Per mesi e giorni, puoi fornire cifre singole o doppie. Ad esempio, 1/12/2019 è una data valida. Non è necessario includere hh:mm:ss se non li hai (ovvero, puoi semplicemente fornire una data). Puoi anche fornire un sottoinsieme di sole ore e minuti (ad esempio, hh:mm). La semplice indicazione dell'ora non è supportata. Inoltre, i millisecondi non sono supportati. Se si forniscono AM/PM labels, a 12-hour clock is assumed. If there is no AM/PM informazioni, si presuppone un orario di 24 ore. È possibile utilizzare «/» o «-» come delimitatori per gli elementi di data. Si presume «:» per gli elementi del timestamp.	Sì
ENTITY_ID	Deve seguire lo schema delle espressioni regolari:. `^[0-9A-Za-z_.@+-]+$` Se l'id dell'entità non è disponibile al momento della valutazione, specifica l'id dell'entità come sconosciuto.	Dipende dal tipo di modello
ENTITY_TYPE	Puoi usare qualsiasi stringa	Dipende dal tipo di modello
EVENT_LABEL	Puoi usare qualsiasi etichetta, come «frode», «legit», «1" o «0".	Obbligatorio se LABEL_TIMESTAMP è incluso
LABEL_TIMESTAMP	Deve seguire il formato del timestamp.	Obbligatorio se EVENT_LABEL è incluso

Per informazioni sulle variabili di evento, vedere Variabili.

Importante

Se stai creando il modello Account Takeover Insights (ATI), consulta Preparazione dei dati i dettagli sulla preparazione e la selezione dei dati.

Valori nulli o mancanti

Le variabili EVENT_TIMESTAMP ed EVENT_LABEL non devono contenere valori nulli o mancanti. È possibile avere valori nulli o mancanti per altre variabili. Tuttavia, si consiglia di utilizzare solo un numero piccolo di valori nulli per tali variabili. Se Amazon Fraud Detector determina che ci sono troppi valori nulli o mancanti per le variabili di un evento, omette automaticamente la variabile dal tuo modello.

Variabili minime

Quando create il modello, il set di dati deve includere almeno due variabili di evento oltre ai metadati di evento richiesti. Le due variabili di evento devono superare il controllo di convalida.

Dimensione del set di dati degli eventi

Richiesto

Il set di dati deve soddisfare i seguenti requisiti di base per una formazione efficace dei modelli.

Dati relativi ad almeno 100 eventi.
Il set di dati deve includere almeno 50 eventi (righe) classificati come fraudolenti.

Consigliato

Consigliamo che il set di dati includa quanto segue per una corretta formazione dei modelli e una buona performance del modello.

Includi un minimo di tre settimane di dati storici, ma al massimo sei mesi di dati.
Includi un minimo di 10.000 dati totali sugli eventi.
Includi almeno 400 eventi (righe) classificati come fraudolenti e 400 eventi (righe) classificati come legittimi.
Includi più di 100 entità uniche, se il tipo di modello richiede ENTITY_ID.

Convalida del set di dati

Prima che Amazon Fraud Detector inizi a creare il tuo modello, verifica se le variabili incluse nel set di dati per l'addestramento del modello soddisfano le dimensioni, il formato e altri requisiti. Se il set di dati non supera la convalida, il modello non viene creato. È necessario innanzitutto correggere le variabili che non hanno superato la convalida prima di creare il modello. Amazon Fraud Detector ti fornisce un profiler di dati che puoi utilizzare per aiutarti a identificare e risolvere i problemi con il tuo set di dati prima di iniziare ad addestrare il tuo modello.

Profiler di dati

Amazon Fraud Detector fornisce uno strumento open source per la profilazione e la preparazione dei dati per l'addestramento dei modelli. Questo profiler di dati automatizzato ti aiuta a evitare errori comuni di preparazione dei dati e a identificare potenziali problemi, come tipi di variabili mappati erroneamente, che potrebbero influire negativamente sulle prestazioni del modello. Il profiler genera un report intuitivo e completo del set di dati, che include statistiche variabili, distribuzione delle etichette, analisi categorica e numerica e correlazioni tra variabili ed etichette. Fornisce indicazioni sui tipi di variabili e un'opzione per trasformare il set di dati in un formato richiesto da Amazon Fraud Detector.

Utilizzo del profiler di dati

Il profiler di dati automatizzato è costruito con uno AWS CloudFormation stack, che puoi avviare facilmente con pochi clic. Tutti i codici sono disponibili su Github. Per informazioni su come utilizzare il profiler di dati, segui le istruzioni nel nostro blog Addestra modelli più velocemente con un profiler di dati automatizzato per Amazon Fraud Detector

Errori comuni nel set di dati degli eventi

Di seguito sono riportati alcuni dei problemi più comuni riscontrati da Amazon Fraud Detector durante la convalida di un set di dati di eventi. Dopo aver eseguito il data profiler, utilizza questo elenco per verificare la presenza di errori nel set di dati prima di creare il modello.

Il file CSV non è in formato UTF-8.
Il numero di eventi nel set di dati è inferiore a 100.
Il numero di eventi identificati come fraudolenti o legittimi è inferiore a 50.
Il numero di entità uniche associate a un evento fraudolento è inferiore a 100.
Più dello 0,1% dei valori in EVENT_TIMESTAMP contiene valori null o valori diversi dai formati di data/ora supportati.
Più dell'1% dei valori in EVENT_LABEL contiene null o valori diversi da quelli definiti nel tipo di evento.
Sono disponibili meno di due variabili per l'addestramento dei modelli.

Archiviazione di set di dati

Dopo aver raccolto il set di dati, lo archivia internamente utilizzando Amazon Fraud Detector o esternamente con Amazon Simple Storage Service (Amazon S3). Ti consigliamo di scegliere dove archiviare il set di dati in base al modello utilizzato per generare previsioni di frode. Per ulteriori informazioni sui tipi di modello, consulta Scegliere un tipo di modello. Per ulteriori informazioni sulla memorizzazione del set di dati, consultaArchiviazione dei dati degli eventi.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Passaggi successivi

Tipo di evento