Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Set di dati di evento
Un set di dati sugli eventi è costituito dai dati storici relativi alle frodi della tua azienda. Fornisci questi dati ad Amazon Fraud Detector per creare modelli di rilevamento delle frodi.
Amazon Fraud Detector utilizza modelli di apprendimento automatico per generare previsioni di frode. Ogni modello viene addestrato utilizzando un tipo di modello. Il tipo di modello specifica gli algoritmi e le trasformazioni utilizzati per addestrare il modello. La formazione dei modelli è il processo di utilizzo di un set di dati fornito per creare un modello in grado di prevedere eventi fraudolenti. Per ulteriori informazioni, consulta Come funziona Amazon Fraud Detector
Il set di dati utilizzato per creare un modello di rilevamento delle frodi fornisce i dettagli di un evento. Un evento è un'attività aziendale valutata per il rischio di frode. Ad esempio, la registrazione di un account può essere un evento. I dati associati all'evento di registrazione dell'account possono essere set di dati di eventi. Amazon Fraud Detector utilizza questo set di dati per valutare le frodi nella registrazione degli account.
Prima di fornire il set di dati ad Amazon Fraud Detector per la creazione di un modello, assicurati di definire l'obiettivo per la creazione del modello. È inoltre necessario determinare come si desidera utilizzare il modello e definire le metriche per valutare se il modello funziona in base ai requisiti specifici.
Ad esempio, i tuoi obiettivi per la creazione di un modello di rilevamento delle frodi che valuti le frodi nella registrazione degli account possono essere i seguenti:
Per approvare automaticamente le registrazioni legittime.
Per acquisire registrazioni fraudolente per indagini successive.
Dopo aver determinato l'obiettivo, il passaggio successivo consiste nel decidere come utilizzare il modello. Alcuni esempi di utilizzo del modello di rilevamento delle frodi per valutare le frodi di registrazione sono i seguenti:
Per il rilevamento delle frodi in tempo reale per ogni registrazione dell'account.
Per la valutazione offline di tutte le registrazioni degli account ogni ora.
Alcuni esempi di metriche che possono essere utilizzate per misurare le prestazioni del modello sono i seguenti:
Ha prestazioni costantemente migliori rispetto all'attuale linea di base in termini di produzione.
Registra registrazioni fraudolente del X% con una percentuale di falsi positivi dell'Y%.
Accetta fino al 5% delle registrazioni approvate automaticamente che sono fraudolente.
Struttura del set di dati di evento
Amazon Fraud Detector richiede che tu fornisca il set di dati degli eventi in un file di testo utilizzando valori separati da virgole (CSV) nel formato UTF-8. La prima riga del file del set di dati CSV deve contenere le intestazioni dei file. L'intestazione del file è composta da metadati e variabili di evento che descrivono ogni elemento di dati associato all'evento. L'intestazione è seguita dai dati dell'evento. Ogni riga è composta da elementi di dati provenienti da un singolo evento.
-
Metadati dell'evento: forniscono informazioni sull'evento. Ad esempio, EVENT_TIMESTAMP è un metadato di evento che specifica l'ora in cui si è verificato l'evento. A seconda del caso d'uso aziendale e del tipo di modello utilizzato per creare e addestrare il modello di rilevamento delle frodi, Amazon Fraud Detector richiede di fornire metadati specifici degli eventi. Quando specifichi i metadati degli eventi nell'intestazione del file CSV, utilizza lo stesso nome dei metadati dell'evento specificato da Amazon Fraud Detector e usa solo lettere maiuscole.
-
Variabile evento: rappresenta gli elementi di dati specifici del tuo evento che desideri utilizzare per creare e addestrare il tuo modello di rilevamento delle frodi. A seconda del caso d'uso aziendale e del tipo di modello utilizzato per creare e addestrare un modello di rilevamento delle frodi, Amazon Fraud Detector potrebbe richiedere o consigliare di fornire variabili di evento specifiche. Facoltativamente, puoi anche fornire altre variabili di evento del tuo evento che desideri includere nell'addestramento del modello. Alcuni esempi di variabili di evento per un evento di registrazione online possono essere l'indirizzo e-mail, l'indirizzo IP e il numero di telefono. Quando specifichi il nome della variabile di evento nell'intestazione del file CSV, usa qualsiasi nome di variabile di tua scelta e usa solo lettere minuscole.
-
Dati dell'evento: rappresenta i dati raccolti dall'evento effettivo. Nel file CSV, ogni riga che segue l'intestazione del file è composta da elementi di dati provenienti da un singolo evento. Ad esempio, in un file di dati di un evento di registrazione online, ogni riga contiene i dati di una singola registrazione. Ogni elemento di dati nella riga deve corrispondere ai metadati dell'evento o alla variabile evento corrispondenti.
Di seguito viene riportato un esempio di un esempio di un file .V contenente i dati di un evento di registrazione di account. La riga di intestazione contiene sia i metadati degli eventi in maiuscolo che le variabili degli eventi in lettere minuscole seguite dai dati dell'evento. Ogni riga del set di dati contiene elementi di dati associati alla registrazione di un singolo account e ogni elemento di dati corrisponde all'intestazione.
Ottieni i requisiti dei set di dati di eventi utilizzando Data models explorer
Il tipo di modello scelto per creare il modello definisce i requisiti per il set di dati. Amazon Fraud Detector utilizza il set di dati fornito per creare e addestrare il tuo modello di rilevamento delle frodi. Prima di iniziare a creare il modello, Amazon Fraud Detector verifica se il set di dati soddisfa le dimensioni, il formato e altri requisiti. Se il set di dati non soddisfa i requisiti, la creazione e l'addestramento del modello falliscono. È possibile utilizzare Data Models Explorer per identificare un tipo di modello da utilizzare per il caso d'uso aziendale e per ottenere informazioni sui requisiti del set di dati per il tipo di modello identificato.
Esplora modelli di dati
Data Models Explorer è uno strumento della console Amazon Fraud Detector che allinea il tuo caso d'uso aziendale al tipo di modello supportato da Amazon Fraud Detector. L'esploratore di modelli di dati fornisce anche informazioni sugli elementi di dati richiesti da Amazon Fraud Detector per creare il tuo modello di rilevamento delle frodi. Prima di iniziare a preparare il set di dati degli eventi, utilizza Data Models Explorer per individuare il tipo di modello consigliato da Amazon Fraud Detector per l'uso aziendale e anche per visualizzare un elenco di elementi di dati obbligatori, consigliati e opzionali necessari per creare il set di dati.
Per utilizzare Data Models Explorer,
-
Apri la console diAWS gestione
e accedi al tuo account. Vai ad Amazon Fraud Detector. -
Nel pannello di navigazione a sinistra seleziona Data models explorer.
-
Nella pagina Esplora modelli di dati, in Caso d'uso aziendale, seleziona il caso d'uso aziendale che desideri valutare per il rischio di frode.
-
Amazon Fraud Detector mostra il tipo di modello consigliato che corrisponde al caso d'uso aziendale. Il tipo di modello definisce gli algoritmi, gli arricchimenti e le trasformazioni che Amazon Fraud Detector utilizzerà per addestrare il tuo modello di rilevamento delle frodi.
Prendi nota del tipo di modello consigliato. Ne avrai bisogno in seguito quando creerai il tuo modello.
Nota
Se non trovi il tuo caso d'uso aziendale, utilizza il link «raggiungici» nella descrizione per fornirci i dettagli del tuo caso d'uso aziendale. Ti consiglieremo il tipo di modello da utilizzare per creare un modello di rilevamento delle frodi per il tuo caso d'uso aziendale.
-
Il riquadro di analisi dei modelli di dati fornisce informazioni sugli elementi di dati obbligatori, consigliati e opzionali necessari per creare e addestrare un modello di rilevamento delle frodi adatto al tuo caso d'uso aziendale. Utilizza le informazioni nel riquadro degli approfondimenti per raccogliere i dati degli eventi e creare il set di dati.
Raccogli i dati di evento
La raccolta dei dati degli eventi è un passaggio importante nella creazione del modello. Questo perché le prestazioni del modello nella previsione delle frodi dipendono dalla qualità del set di dati. Quando inizi a raccogliere i dati degli eventi, tieni presente l'elenco degli elementi di dati che Data models explorer ti ha fornito per creare il tuo set di dati. Dovrai raccogliere tutti i dati obbligatori (metadati degli eventi) e decidere quali elementi di dati consigliati e facoltativi (variabili di evento) includere in base ai tuoi obiettivi per la creazione del modello. È anche importante decidere il formato di ogni variabile di evento che intendi includere e la dimensione totale del set di dati.
Qualità dei set di dati degli eventi
Per raccogliere set di dati di alta qualità per il modello, è consigliabile:
Raccogli dati maturi: l'utilizzo dei dati più recenti aiuta a identificare il modello di frode più recente. Tuttavia, per individuare i casi di utilizzo fraudolento, attendi la maturazione dei dati. Il periodo di scadenza dipende dalla tua attività e può richiedere da due settimane a tre mesi. Ad esempio, se l'evento include una transazione con carta di credito, la scadenza dei dati potrebbe essere determinata dal periodo di addebito della carta di credito o dal tempo impiegato da un investigatore per prendere una decisione.
Assicurati che il set di dati utilizzato per addestrare il modello abbia avuto il tempo sufficiente per maturare in base alla tua azienda.
Assicurati che la distribuzione dei dati non subisca variazioni significative: il processo di formazione del modello Amazon Fraud Detector, campiona e partiziona il tuo set di dati in base a EVENT_TIMESTAMP. Ad esempio, se il set di dati è composto da eventi fraudolenti estratti dagli ultimi 6 mesi, ma sono inclusi solo l'ultimo mese di eventi legittimi, la distribuzione dei dati è considerata errata e instabile. Un set di dati instabile potrebbe portare a distorsioni nella valutazione delle prestazioni del modello. Se ritieni che la distribuzione dei dati stia subendo variazioni significative, valuta la possibilità di bilanciare il set di dati raccogliendo dati simili all'attuale distribuzione dei dati.
Assicurati che il set di dati sia rappresentativo del caso d'uso in cui il modello è implementato/testato. Altrimenti, le prestazioni stimate potrebbero essere distorte. Supponiamo che tu stia utilizzando un modello per rifiutare automaticamente tutti i candidati interni, ma che il tuo modello sia addestrato con un set di dati storici e etichette precedentemente approvati. Quindi, la valutazione del modello potrebbe essere imprecisa perché la valutazione si basa sul set di dati che non include la rappresentazione dei candidati rifiutati.
Formato dei dati dell'evento
Amazon Fraud Detector trasforma la maggior parte dei tuoi dati nel formato richiesto come parte del processo di formazione dei modelli. Tuttavia, esistono alcuni formati standard che puoi usare facilmente per fornire i tuoi dati che possono aiutarti a evitare problemi in seguito, quando Amazon Fraud Detector convalida il tuo set di dati. La tabella seguente fornisce indicazioni sui formati per fornire i metadati degli eventi consigliati.
Nota
Quando crei il tuo file CSV, assicurati di inserire il nome dei metadati dell'evento come elencato di seguito, in lettere maiuscole.
Nome dei metadati | Formato | Obbligatorio |
---|---|---|
ID_EVENTO |
Se fornito, deve soddisfare i seguenti requisiti:
|
Dipende dal tipo di modello |
TIMESTAMP DELL'EVENTO |
|
Sì |
ENTITY_ID |
|
Dipende dal tipo di modello |
TIPO_ENTITÀ |
È possibile utilizzare qualsiasi stringa |
Dipende dal tipo di modello |
ETICHETTA_EVENTO |
Puoi utilizzare qualsiasi etichetta, come «frode», «legittimo», «1" o «0". |
Obbligatorio se LABEL_TIMESTAMP è incluso |
TIMESTAMP DELL'ETICHETTA |
Deve seguire il formato del timestamp. |
Obbligatorio se EVENT_LABEL è incluso |
Per informazioni sulle variabili di evento, vedere Variabili.
Importante
Se stai creando un modello Account Takeover Insights (ATI), consultaPreparazione dei dati i dettagli sulla preparazione e la selezione dei dati.
Valori nulli o mancanti
Le variabili EVENT_TIMESTAMP ed EVENT_LABEL non devono contenere valori nulli o mancanti. Puoi avere valori nulli o mancanti per altre variabili. Consigliamo, tuttavia, di utilizzare solo un numero piccolo di nulli per tali variabili. Se Amazon Fraud Detector rileva che ci sono troppi valori nulli o mancanti per una variabile di evento, ometterà automaticamente una variabile dal tuo modello.
Variabili minime
Quando si crea il modello, il set di dati deve includere almeno due variabili di evento oltre ai metadati degli eventi richiesti. Le due variabili di evento devono superare il controllo di convalida.
Dimensione del set di dati dell'evento
Obbligatorio
Il set di dati deve soddisfare i seguenti requisiti di base per una corretta formazione del modello.
-
Dati relativi ad almeno 100 eventi.
-
Il set di dati deve includere almeno 50 eventi (righe) classificati come fraudolenti.
Consigliato
Consigliamo che il set di dati includa quanto segue per un addestramento efficace del modello e buone prestazioni del modello.
-
Includi un minimo di tre settimane di dati storici, ma al massimo sei mesi di dati.
-
Includi un minimo di 10.000 dati totali sugli eventi.
-
Includi almeno 400 eventi (righe) classificati come fraudolenti e 400 eventi (righe) classificati come legittimi.
-
Includi più di 100 entità uniche, se il tipo di modello richiede ENTITY_ID.
Convalida del set di dati
Prima che Amazon Fraud Detector inizi a creare il modello, verifica se le variabili incluse nel set di dati per addestrare il modello soddisfano le dimensioni, il formato e altri requisiti. Se il set di dati non supera la convalida, il modello non viene creato. È necessario innanzitutto correggere le variabili che non hanno superato la convalida prima di creare il modello. Amazon Fraud Detector ti offre un Data profiler che puoi utilizzare per aiutarti a identificare e risolvere i problemi con il tuo set di dati prima di iniziare ad addestrare il tuo modello
Profilatore di dati
Amazon Fraud Detector fornisce uno strumento open source per la profilazione e la preparazione dei dati per la formazione dei modelli. Questo profiler di dati automatizzato consente di evitare errori comuni di preparazione dei dati e di identificare potenziali problemi come tipi di variabili mappati in modo errato che potrebbero influire negativamente sulle prestazioni del modello. Il profiler genera un report intuitivo e completo del set di dati, che include statistiche variabili, distribuzione delle etichette, analisi categoriali e numeriche e correlazioni tra variabili ed etichette. Fornisce indicazioni sui tipi di variabili e un'opzione per trasformare il set di dati in un formato richiesto da Amazon Fraud Detector.
Utilizzo del data profiler
Il data profiler automatizzato è costruito con unoAWS CloudFormation stack, che puoi avviare facilmente con pochi clic. Tutti i codici sono disponibili su Github
Errori comuni dei set di dati degli eventi
Di seguito sono riportati alcuni dei problemi più comuni riscontrati da Amazon Fraud Detector durante la convalida di un set di dati di eventi. Dopo aver eseguito il data profiler, utilizza questo elenco per verificare la presenza di errori nel set di dati prima di creare il modello.
Il file .V. non è nel formato UTF-8.
Il numero di eventi nel set di dati è inferiore a 100.
Il numero di eventi identificati come fraudolenti o legittimi è inferiore a 50.
Il numero di entità uniche associate a un evento di frode è inferiore a 100.
Più dello 0,1% dei valori in EVENT_TIMESTAMP contiene valori nulli o diversi dai formati data/ora supportati.
Più dell'1% dei valori in EVENT_LABEL contiene valori nulli o diversi da quelli definiti nel tipo di evento.
Sono disponibili meno di due variabili per l'addestramento dei modelli.
Memorizzazione di set di dati
Dopo aver raccolto il set di dati, è possibile archiviarlo internamente utilizzando Amazon Fraud Detector o esternamente con Amazon Simple Storage Service (Amazon S3). Ti consigliamo di scegliere dove archiviare il set di dati in base al modello utilizzato per generare previsioni di frode. Per ulteriori informazioni sui tipi di modello, consulta Scegliere un tipo di modello. Per ulteriori informazioni sulla memorizzazione del set di dati, consultaArchiviazione dati eventi.