Differenza nel rifiuto condizionale (DCR) - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Differenza nel rifiuto condizionale (DCR)

Questa metrica confronta le etichette osservate con le etichette previste dal modello e valuta se questa è la stessa per tutti i facet relativi agli esiti negativi (rifiuti). Questa metrica assomiglia molto alle distorsione umane, poiché quantifica quanti risultati negativi in più un modello ha concesso (etichette previste y') a un determinato facet rispetto a quanto suggerito dalle etichette nel set di dati di addestramento (etichette osservate y). Ad esempio, se per le richieste di prestito per un gruppo di mezza età (facet a) sono stati registrati più rifiuti (risultato negativo) rispetto a quanto previsto dal modello basato sulle qualifiche rispetto al facet contenente altre fasce di età (facet d), ciò potrebbe indicare una potenziale distorsione nel modo in cui i prestiti sono stati respinti, il che ha favorito il gruppo di mezza età rispetto ad altri gruppi.

La formula per la differenza nell'accettazione condizionale è la seguente:

        DCR = rd - ra

Dove:

  • rd = nd(0)/ n'd(0) è il rapporto tra il numero osservato di esiti negativi di valore 0 (rifiuti) del facet d e il numero previsto di risultati negativi (rifiuti) per il facet d.

  • ra = na(0)/ n'a(0) è il rapporto tra il numero osservato di esiti negativi di valore 0 (rifiuti) del facet a e il numero previsto di risultati negativi di valore 0 (rifiuti) per il facet a.

La metrica DCR può rilevare distorsioni sia positive sia negative che rivelano un trattamento preferenziale basato sulle qualifiche. Considera i seguenti casi di distorsioni basati sull'età in merito al rifiuto dei prestiti.

Esempio 1: distorsione positiva

Supponiamo di avere un set di dati composto da 100 persone di mezza età (facet a) e 50 persone di altre fasce d'età (facet d) che hanno richiesto prestiti, laddove il modello consigliasse di rifiutare prestiti a 60 persone del facet a e 30 per il facet d. Le proporzioni previste sono quindi imparziali rispetto alla metrica DPPL, ma le etichette osservate mostrano che a 50 elementi del facet a e a 40 del facet d sono stati rifiutati prestiti. In altre parole, il modello ha rifiutato prestiti al 17% in più per le persone di mezza età rispetto alle etichette osservate nei dati di addestramento suggeriti (50/60 = 0,83) e ha rifiutato prestiti per il 33% in meno ad altre fasce di età rispetto alle etichette osservate (40/30 = 1,33). Il valore DCR quantifica questa differenza nel rapporto tra i tassi di rifiuto osservati e quelli previsti tra i facet. Il valore positivo indica che esiste una potenziale distorsione a favore del gruppo di mezza età con tassi di rifiuto inferiori rispetto ad altri gruppi rispetto a quanto indicato dai dati osservati (considerati imparziali).

        DCR = 40/30 - 50/60 = 1/2

Esempio 2: distorsione negativa

Supponiamo di avere un set di dati composto da 100 persone di mezza età (facet a) e 50 persone di altre fasce d'età (facet d) che hanno richiesto prestiti, laddove il modello consigliasse di rifiutare prestiti a 60 persone del facet a e 30 per il facet d. Le proporzioni previste sono quindi imparziali rispetto alla metrica DPPL, ma le etichette osservate mostrano che a 70 elementi del facet a e a 20 del facet d sono stati rifiutati prestiti. In altre parole, il modello ha rifiutato prestiti al 17% in meno per le persone di mezza età rispetto alle etichette osservate nei dati di addestramento suggeriti (70/60 = 1,17) e ha rifiutato prestiti per il 33% in più ad altre fasce di età rispetto alle etichette osservate (20/30 = 0,67). Il valore negativo indica che esiste una potenziale distorsione a favore del facet a con tassi di rifiuto inferiori rispetto al facet a di mezza età rispetto a quella indicata dai dati osservati (considerati imparziali).

        DCR = 20/30 - 70/60 = -1/2

L'intervallo di valori per le differenze nel rifiuto condizionato per le etichette del facet binarie, multicategoria e continue è (-∞, +∞).

  • I valori positivi si verificano quando il rapporto tra il numero di rifiuti osservato e i rifiuti previsti per il facet d è maggiore del rapporto per il facet a. Questi valori indicano una possibile distorsione nei confronti dei richiedenti qualificati a causa del facet a. Maggiore è il valore della metrica DCR, più estrema è la distorsione apparente.

  • I valori prossimi allo zero si verificano quando il rapporto tra il numero di rifiuti osservato e le accettazioni previste per il facet a è simile al rapporto per il facet d. Questi valori indicano che i tassi di rifiuto previsti sono coerenti con i valori osservati nei dati etichettati e che i richiedenti qualificati di entrambi i facet vengono rifiutati in modo analogo.

  • I valori negativi si verificano quando il rapporto tra il numero di rifiuti osservato e i rifiuti previsti per il facet d è inferiore a tale rapporto per il facet a. Questi valori indicano una possibile distorsione nei confronti dei richiedenti qualificati derivante dal facet d. Maggiore è la grandezza della metrica DCR negativa, più estrema è la distorsione apparente.