Importanza della variabile del modello - Amazon Fraud Detector

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Importanza della variabile del modello

L'importanza delle variabili del modello è una funzionalità di Amazon Fraud Detector che classifica le variabili del modello all'interno di una versione del modello. A ogni variabile del modello viene assegnato un valore basato sulla sua importanza relativa per le prestazioni complessive del modello. La variabile di modello con il valore più alto è più importante per il modello rispetto alle altre variabili di modello nel set di dati per quella versione del modello ed è elencata in alto per impostazione predefinita. Allo stesso modo, la variabile di modello con il valore più basso è elencata in basso per impostazione predefinita ed è meno importante rispetto alle altre variabili del modello. Utilizzando i valori di importanza delle variabili del modello, è possibile ottenere informazioni dettagliate su quali input determinano le prestazioni del modello.

Puoi visualizzare i valori di importanza delle variabili del modello per la versione del modello addestrato nella console Amazon Fraud Detector o utilizzando l'DescribeModelVersionAPI.

L'importanza delle variabili del modello fornisce il seguente set di valori per ogni variabile utilizzata per addestrare la versione del modello.

  • Tipo di variabile: tipo di variabile (ad esempio, indirizzo IP o e-mail). Per ulteriori informazioni, consulta Tipi variabili. Per i modelli Account Takeover Insights (ATI), Amazon Fraud Detector fornisce un valore di importanza variabile sia per il tipo di variabile grezza che aggregata. I tipi di variabili non elaborati vengono assegnati alle variabili fornite. Il tipo di variabile aggregata viene assegnato a un insieme di variabili non elaborate che Amazon Fraud Detector ha combinato per calcolare un valore di importanza aggregato.

  • Nome variabile: nome della variabile di evento utilizzata per addestrare la versione del modello (ad esempio,ip_address,email_address). are_creadentials_valid Per il tipo di variabile aggregata, vengono elencati i nomi di tutte le variabili utilizzate per calcolare il valore di importanza della variabile aggregata.

  • Valore di importanza variabile: un numero che rappresenta l'importanza relativa della variabile grezza o aggregata per le prestazioni del modello. Intervallo tipico: 0-10

Nella console Amazon Fraud Detector, i valori di importanza delle variabili del modello vengono visualizzati come segue per un modello Online Fraud Insights (OFI) o un modello Transaction Fraud Insights (TFI). Un modello Account Takeover Insight (ATI) fornirà valori di importanza variabili aggregati oltre ai valori di importanza della variabile grezza. Il grafico grafico semplifica la visualizzazione dell'importanza relativa tra le variabili, con la linea tratteggiata verticale che fa riferimento al valore di importanza della variabile con il punteggio più alto.

Tabella di importanza delle variabili del modello.

Amazon Fraud Detector genera valori di importanza variabili per ogni versione del modello Fraud Detector senza costi aggiuntivi.

Importante

Le versioni dei modelli create prima del 9 luglio 2021 non hanno valori di importanza variabili. È necessario addestrare una nuova versione del modello per generare i valori di importanza delle variabili del modello.

Utilizzo dei valori di importanza delle variabili del modello

È possibile utilizzare i valori di importanza delle variabili del modello per ottenere informazioni dettagliate su cosa aumenta o diminuisce le prestazioni del modello e su quali variabili vi contribuisce maggiormente. Quindi modifica il modello per migliorare le prestazioni complessive.

Più specificamente, per migliorare le prestazioni del modello, esaminate i valori di importanza delle variabili rispetto alle conoscenze del dominio ed eseguite il debug dei problemi nei dati di addestramento. Ad esempio, se l'ID account è stato utilizzato come input per il modello ed è elencato in alto, dai un'occhiata al suo valore di importanza variabile. Se il valore di importanza della variabile è significativamente più alto rispetto al resto dei valori, il modello potrebbe adattarsi eccessivamente a uno specifico modello di frode (ad esempio, tutti gli eventi di frode provengono dallo stesso ID account). Tuttavia, è possibile che si verifichi una perdita di etichetta se la variabile dipende dalle etichette antifrode. A seconda del risultato dell'analisi basata sulla conoscenza del dominio, potresti voler rimuovere la variabile e addestrarla con un set di dati più diversificato o mantenere il modello così com'è.

Allo stesso modo, dai un'occhiata alle variabili classificate per ultime. Se il valore di importanza della variabile è significativamente inferiore rispetto al resto dei valori, questa variabile del modello potrebbe non avere alcuna importanza nell'addestramento del modello. Potresti prendere in considerazione la rimozione della variabile per addestrare una versione del modello più semplice. Se il tuo modello ha poche variabili, ad esempio solo due variabili, Amazon Fraud Detector fornisce comunque i valori di importanza delle variabili e classifica le variabili. Tuttavia, le informazioni in questo caso saranno limitate.

Importante
  1. Se noti che mancano delle variabili nella tabella di importanza delle variabili del modello, ciò potrebbe essere dovuto a uno dei seguenti motivi. Valuta la possibilità di modificare la variabile nel set di dati e riqualificare il modello.

    • Il numero di valori univoci per la variabile nel set di dati di addestramento è inferiore a 100.

    • Nel set di dati di addestramento mancano più dello 0,9 dei valori della variabile.

  2. È necessario addestrare una nuova versione del modello ogni volta che si desidera modificare le variabili di input del modello.

Valutazione dei valori di importanza delle variabili del modello

Si consiglia di considerare quanto segue quando si valutano i valori di importanza delle variabili del modello:

  • I valori di importanza variabile devono sempre essere valutati in combinazione con la conoscenza del dominio.

  • Esamina il valore di importanza variabile di una variabile rispetto al valore di importanza variabile delle altre variabili all'interno della versione del modello. Non considerate il valore di importanza variabile per una singola variabile in modo indipendente.

  • Confronta i valori di importanza variabile delle variabili all'interno della stessa versione del modello. Non confrontate i valori di importanza variabile delle stesse variabili tra le versioni del modello, poiché il valore di importanza variabile di una variabile in una versione del modello potrebbe differire dal valore della stessa variabile in una versione del modello diversa. Se si utilizzano le stesse variabili e lo stesso set di dati per addestrare diverse versioni del modello, ciò non genera necessariamente gli stessi valori di importanza variabile.

Visualizzazione della classificazione di importanza variabile del modello

Una volta completata la formazione del modello, puoi visualizzare la classificazione a importanza variabile del modello della versione del modello addestrato nella console Amazon Fraud Detector o utilizzando l'DescribeModelVersionAPI.

Per visualizzare la classificazione dell'importanza variabile del modello utilizzando la console,
  1. Apri la AWS console e accedi al tuo account. Accedi ad Amazon Fraud Detector.

  2. Nel riquadro di navigazione a sinistra scegliere Models (Modelli).

  3. Scegli il modello e poi la versione del modello.

  4. Assicurati che la scheda Panoramica sia selezionata.

  5. Scorri verso il basso per visualizzare il riquadro di importanza della variabile del modello.

Comprendere come viene calcolato il valore di importanza della variabile del modello

Al completamento di ogni formazione sulla versione del modello, Amazon Fraud Detector genera automaticamente i valori di importanza delle variabili del modello e le metriche delle prestazioni del modello. Per questo, Amazon Fraud Detector utilizza Shapley Additive Explanations (SHAP). SHAP è essenzialmente il contributo medio previsto di una variabile del modello dopo aver considerato tutte le possibili combinazioni di tutte le variabili del modello.

SHAP assegna innanzitutto il contributo di ciascuna variabile del modello per la previsione di un evento. Quindi, aggrega queste previsioni per creare una classifica delle variabili a livello di modello. Per assegnare i contributi di ciascuna variabile del modello per una previsione, SHAP considera le differenze nei risultati del modello tra tutte le possibili combinazioni di variabili. Includendo tutte le possibilità di includere o rimuovere set specifici di variabili per generare un output del modello, SHAP può accedere con precisione all'importanza di ciascuna variabile del modello. Ciò è particolarmente importante quando le variabili del modello sono altamente correlate tra loro.

I modelli ML, nella maggior parte dei casi, non consentono di rimuovere variabili. È invece possibile sostituire una variabile rimossa o mancante nel modello con i valori delle variabili corrispondenti di una o più linee di base (ad esempio, eventi non fraudolenti). La scelta delle istanze di base appropriate può essere difficile, ma Amazon Fraud Detector semplifica questa operazione impostando questa linea di base come media della popolazione per te.