Dati post-allenamento e metriche di distorsione dei modelli

Amazon SageMaker Clarify fornisce undici dati post-formazione e metriche di distorsione dei modelli per aiutare a quantificare varie concezioni di equità. Questi concetti non possono essere soddisfatti tutti contemporaneamente e la selezione dipende dalle specifiche dei casi che comportano le potenziali distorsioni analizzate. La maggior parte di queste metriche è una combinazione di numeri presi dalle matrici di confusione di classificazione binaria per i diversi gruppi demografici. Poiché l'equità e le distorsioni possono essere definite in base a un'ampia gamma di metriche, è necessario il giudizio umano per comprendere e scegliere quali metriche sono rilevanti per il singolo caso d'uso. I clienti dovrebbero consultare le parti interessate appropriate per determinare la misura di equità appropriata per la loro applicazione.

Utilizziamo la seguente notazione per discutere le metriche di distorsione. Il modello concettuale qui descritto riguarda la classificazione binaria, in cui gli eventi sono etichettati come aventi solo due esiti possibili nel loro spazio di esempio, indicati come positivo (con valore 1) e negativo (con valore 0). Questo framework è generalmente estensibile alla classificazione multicategoria in modo semplice o ai casi che comportano esiti con valori continui quando necessario. Nel caso della classificazione binaria, le etichette positive e negative vengono assegnate agli esiti registrati in un set di dati non elaborati per un facet favorito a e per un facet sfavorito d. Queste etichette y vengono chiamate etichette osservate per distinguerle dalle etichette previste y' che vengono assegnate da un modello di machine learning durante le fasi di addestramento o inferenza del ciclo di vita ML. Queste etichette vengono utilizzate per definire le distribuzioni di probabilità P_a(y) e P_d(y) per i rispettivi esiti facet.

etichette:
- y rappresenta le n etichette osservate per gli esiti degli eventi in un set di dati di addestramento.
- y' rappresenta le etichette previste per le n etichette osservate nel set di dati di un modello addestrato.
esiti:
- Un esito positivo (con valore 1) per un esempio, come l'accettazione di un'applicazione.
  - n⁽¹⁾ è il numero di etichette osservate per gli esiti positivi (accettazioni).
  - n'⁽¹⁾ è il numero di etichette previste per gli esiti positivi (accettazioni).
- Un esito negativo (con valore 0) per un esempio, come il rifiuto di un'applicazione.
  - n⁽⁰⁾ è il numero di etichette osservate per gli esiti negativi (rifiuti).
  - n'⁽⁰⁾ è il numero di etichette previste per gli esiti negativi (rifiuti).
valori dei facet:
- facet a: il valore della caratteristica che definisce un gruppo demografico favorito dalla distorsione.
  - n_a è il numero di etichette osservate per il valore del facet favorito: n_a = n_a⁽¹⁾ + n_a⁽⁰⁾ è la somma delle etichette osservate positive e negative per il facet di valore a.
  - n'_a è il numero di etichette previste per il valore del facet favorito: n'_a = n'_a⁽¹⁾ + n'_a⁽⁰⁾ è la somma delle etichette previste positive e negative per il valore del facet a. Nota che n'_a = n_a.
- facet d: il valore della funzionalità che definisce un gruppo demografico sfavorito dalla distorsione.
  - n_d è il numero di etichette osservate per il valore del facet sfavorito: n_d = n_d⁽¹⁾ + n_d⁽⁰⁾ è la somma delle etichette osservate positive e negative per il valore del facet d.
  - n'_d è il numero di etichette previste per il valore del facet sfavorito: n'_d = n'_d⁽¹⁾ + n'_d⁽⁰⁾ è la somma delle etichette previste positive e negative per il valore del facet d. Nota che n'_d = n_d.
distribuzioni di probabilità per gli esiti degli esiti dei dati del facet con etichetta:
- P_a(y) è la distribuzione di probabilità delle etichette osservate per il facet a. Per i dati con etichetta binari, questa distribuzione è data dal rapporto tra il numero di esempi nel facet a etichettato con esiti positivi e il numero totale, P_a(y¹) = n_a⁽¹⁾/n_a, e dal rapporto tra il numero di esempi con esiti negativi e il numero totale, P_a(y⁰) = n_a⁽⁰⁾/n_a.
- P_d(y) è la distribuzione di probabilità delle etichette osservate per il facet d. Per i dati con etichetta binari, questa distribuzione è data dal numero di esempi nel facet d etichettato con esiti positivi rispetto al numero totale, P_d(y¹) = n_d⁽¹⁾/n_d, e dal rapporto tra il numero di esempi con esiti negativi e il numero totale, P_d(y⁰) = n_d⁽⁰⁾/n_d.

La tabella seguente contiene una guida con istruzioni rapide e collegamenti alle metriche di distorsione post-addestramento.

Metriche di distorsione post-addestramento

Metrica di distorsione post-addestramento	Descrizione	Domanda di esempio	Interpretazione dei valori delle metriche
Differenza nelle proporzioni positive delle etichette previste (DPPL)	Misura la differenza nella proporzione di previsioni positive tra il facet favorito a e il facet sfavorito d.	C'è stato uno squilibrio tra i gruppi demografici nei risultati positivi previsti che potrebbe indicare distorsioni?	Intervallo per etichette di facet binarie e multicategoria normalizzate: `[-1,+1]` Intervallo per etichette continue: (-∞, +∞) Interpretazione: I valori positivi indicano che il facet favorito a ha una percentuale maggiore di risultati positivi previsti. I valori vicini allo zero indicano una proporzione più equa dei risultati positivi previsti tra facet. I valori negativi indicano che il facet sfavorito d ha una percentuale maggiore di esiti positivi previsti.
Impatto diversificato (DI)	Misura il rapporto tra le proporzioni delle etichette previste per il facet favorito a e il facet sfavorito d.	C'è stato uno squilibrio tra i gruppi demografici nei risultati positivi previsti che potrebbe indicare distorsioni?	Intervallo per etichette di facet binarie, multicategoria e continue: [0,∞) Interpretazione: I valori inferiori a 1 indicano che il facet favorito a ha una percentuale maggiore di risultati positivi previsti. Un valore pari a 1 indica che abbiamo una parità demografica. I valori maggiori di 1 indicano che il facet sfavorito d ha una percentuale maggiore di esiti positivi previsti.
Disparità demografica condizionale nelle etichette previste (CDDPL)	Misura la disparità delle etichette previste tra i facet nel loro insieme, ma anche tra i sottogruppi.	Alcuni gruppi demografici registrano una proporzione maggiore di rifiuti come esiti dell’idoneità ai prestiti rispetto alla proporzione di accettazioni?	L’intervallo di valori CDDPL per esiti binari, multicategoria e continui: `[-1, +1]` I valori positivi indicano i risultati in cui il facet d viene rifiutato anziché accettato. I valori vicini allo zero indicano l'assenza di disparità demografica, in media. I valori negativi indicano risultati in cui il facet a viene rifiutato anziché accettato.
Fliptest controfattuale (FT)	Esamina ogni membro del facet d e valuta se membri simili del facet a hanno previsioni di modello diverse.	Un gruppo di una fascia demografica per età specifica corrisponde strettamente per tutte le caratteristiche a un gruppo di età diverso, ma in media è maggiormente retribuito?	L’intervallo per etichette di facet binarie e multicategoria è `[-1, +1]`. I valori positivi si verificano quando il numero di decisioni controfattuali sfavorevoli relative al facet d sfavorito supera quelle favorevoli. I valori prossimi allo zero si verificano quando il numero di decisioni controfattuali sfavorevoli e favorevoli si compensa. I valori negativi si verificano quando il numero di decisioni controfattuali sfavorevoli relative al facet d sfavorito è inferiore a quelle favorevol.
Differenza di precisione (AD)	Misura la differenza tra l'accuratezza della previsione per i facet favoriti e sfavoriti.	Il modello prevede le etichette con la stessa precisione per le applicazioni in tutti i gruppi demografici?	L’intervallo per etichette di facet binarie e multicategoria è `[-1, +1]`. I valori positivi indicano che il facet d risente maggiormente di una combinazione di falsi positivi (errori di tipo I) o falsi negativi (errori di tipo II). Ciò significa che esiste una potenziale distorsione nei confronti del facet sfavorito d. I valori prossimi allo zero si verificano quando la precisione di previsione per il facet a è simile a quella per il facet d. I valori negativi indicano che il facet a risente maggiormente di una combinazione di falsi positivi (errori di tipo I) o falsi negativi (errori di tipo II). Ciò significa che esiste una distorsione nei confronti del facet favorito a.
Differenza di richiamo (RD)	Confronta il richiamo del modello per i facet favoriti e sfavoriti.	Esiste una tendenza all'erogazione di prestiti basata sull'età dovuta al fatto che un modello prevede una maggiore capacità di richiamo per una fascia di età rispetto a un'altra?	Intervallo per la classificazione binaria e multicategoria: `[-1, +1]`. I valori positivi suggeriscono che il modello trova un numero maggiore di veri positivi per il facet a e agisce in opposizione al facet sfavorito d. I valori vicini allo zero suggeriscono che il modello trova circa lo stesso numero di veri positivi in entrambi i facet e non è distorto. I valori negativi indicano che il modello trova un numero maggiore di veri positivi per il facet d e agisce in opposizione al facet favorito a.
Differenza nell'accettazione condizionata () DCAcc	Confronta le etichette osservate con le etichette previste da un modello. Valuta se ciò si applica a tutti i facet per quanto riguarda i risultati positivi previsti (accettazioni).	Quando si confronta una fascia di età con un'altra, i prestiti sono accettati più frequentemente o meno spesso del previsto (in base alle qualifiche)?	Intervallo per etichette di facet binarie, multicategoria e continue: (-∞, +∞). I valori positivi indicano una possibile distorsione nei confronti dei candidati qualificati a causa del facet sfavorito d. I valori prossimi allo zero indicano che i candidati qualificati di entrambi i facet vengono accettati in modo analogo. I valori negativi indicano una possibile distorsione nei confronti dei candidati qualificati dal facet favorito a.
Differenza nelle percentuali di accettazione (DAR)	Misura la differenza nei rapporti tra i risultati positivi osservati (TP) e quelli positivi previsti (TP + FP) tra facet favoriti e sfavoriti.	Il modello ha la stessa precisione nella previsione delle accettazioni di prestiti per i richiedenti qualificati in tutte le fasce d'età?	L’intervallo per etichette di facet binarie, multicategoria e continue è `[-1, +1]`. I valori positivi indicano una possibile distorsione nei confronti del facet d causata dalla presenza di un numero relativamente maggiore di falsi positivi nel facet sfavorito d. I valori vicini allo zero indicano che le etichette osservate per i risultati positivi (accettazioni) vengono previste con uguale precisione per entrambi i facet dal modello. I valori negativi indicano una possibile distorsione nei confronti del facet a causata dalla presenza di un numero relativamente maggiore di falsi positivi nel facet favorito a.
Differenza di specificità (SD)	Confronta la specificità del modello tra facet favoriti e sfavoriti.	Esiste una distorsione basata sull'età nella concessione dei prestiti perché il modello prevede una specificità maggiore per un gruppo di età rispetto a un altro?	Intervallo per la classificazione binaria e multicategoria: `[-1, +1]`. I valori positivi suggeriscono che il modello trova meno falsi positivi per il facet d ed è sbilanciato rispetto al facet sfavorito d. I valori vicini allo zero suggeriscono che il modello trova un numero simile di falsi positivi in entrambi i facet e non è distorto. I valori negativi suggeriscono che il modello trova meno falsi positivi per il facet a e agisce in opposizione rispetto al facet favorito a.
Differenza nel rifiuto condizionale (DCR)	Confronta le etichette osservate con le etichette previste da un modello e valuta se questa è la stessa in tutti i facet per quanto riguarda gli esiti negativi (rifiuti).	Le richieste di prestito sono state respinte più o meno rispetto a quanto previsto per una fascia di età rispetto a un'altra in base alle qualifiche?	Intervallo per etichette di facet binarie, multicategoria e continue: (-∞, +∞). I valori positivi indicano una possibile distorsione nei confronti dei candidati qualificati a causa del facet sfavorito d. I valori prossimi allo zero indicano che i candidati qualificati di entrambi i facet vengono rifiutati in modo analogo. I valori negativi indicano una possibile distorsione nei confronti dei candidati qualificati dal facet favorito a.
Differenza nelle percentuali di rifiuto (DRR)	Misura la differenza nei rapporti tra gli esiti negativi osservati (TN) e quelli negativi previsti (TN + FN) tra i facet sfavoriti e favoriti.	Il modello ha la stessa precisione nella previsione dei rifiuti di prestiti per i richiedenti non qualificati in tutte le fasce d'età?	L’intervallo per etichette di facet binarie, multicategoria e continue è `[-1, +1]`. I valori positivi indicano una possibile distorsione causata dalla presenza di un numero relativamente maggiore di falsi negativi nel facet favorito a. I valori prossimi allo zero indicano che gli esiti negativi (rifiuti) vengono previsti con uguale precisione per entrambi i facet. I valori negativi indicano una possibile distorsione causata dalla presenza di un numero relativamente maggiore di falsi negativi nel facet sfavorito d.
Parità di trattamento (TE)	Misura la differenza nel rapporto tra falsi positivi e falsi negativi tra i facet favoriti e sfavoriti.	Nelle richieste di prestito, il report relativo tra falsi positivi e falsi negativi è lo stesso in tutti i dati demografici di tutte le età?	Intervallo per etichette di facet binarie e multicategoria: (-∞, +∞). I valori positivi si verificano quando il rapporto tra falsi positivi e falsi negativi per il facet a è maggiore di quello per il facet d. I valori prossimi allo zero si verificano quando il rapporto tra falsi positivi e falsi negativi per il facet a è simile a quello per il facet d. I valori negativi si verificano quando il rapporto tra falsi positivi e falsi negativi per il facet a è inferiore a quello per il facet d.
Entropia generalizzata (GE)	Misura la disuguaglianza nei benefici `b` assegnati a ciascun input dalle previsioni del modello.	Dei due modelli candidati per la classificazione delle richieste di prestito, uno porta a una distribuzione più disomogenea dei risultati desiderati rispetto all'altro?	Intervallo per etichette di binarie e multicategoria: (0, 0.5). GE non è definito quando il modello prevede solo falsi negativi. I valori pari a zero si verificano quando tutte le previsioni sono corrette o tutte le previsioni sono falsi positivi. I valori positivi indicano una disuguaglianza nei benefici; 0,5 corrisponde alla disuguaglianza maggiore.

Per ulteriori informazioni sulle metriche relative alle distorsioni post-addestramento, consulta Gruppi di misure di equità per il machine learning nella finanza.

Argomenti

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Dati post-allenamento e distorsioni dei modelli

Differenza nelle proporzioni positive delle etichette previste (DPPL)