Disparità demografica condizionale nelle etichette previste (CDDPL) - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Disparità demografica condizionale nelle etichette previste (CDDPL)

La metrica della disparità demografica (DDPL) determina se il facet d ha una percentuale maggiore delle etichette rifiutate previste rispetto alle etichette accettate previste. Consente di confrontare la differenza tra la percentuale di rifiuto prevista e la percentuale di accettazione prevista tra i diversi facet. Questa metrica è esattamente la stessa della metrica CDD pre-addestramento, tranne per il fatto che viene calcolata in base alle etichette previste anziché a quelle osservate. Questa metrica è compresa nell'intervallo (-1,+1).

La formula per le previsioni della disparità demografica per le etichette del facet d è la seguente:

        DDPLd = n'd(0)/n'(0) - n'd(1)/n'(1) = PdR(y'0) - PdA(y'1)

Dove:

  • n'(0) = n'a(0) + n'd(0) è il numero di etichette rifiutate previste per i facet a e d.

  • n'(1) = n'a(1) + n'd(1) è il numero di etichette accettate previste per i facet a e d.

  • PdR(y'0) è la proporzione di etichette rifiutate previste (valore 0) nel facet d.

  • PdA(y'1) è la proporzione di etichette accettate previste (valore 1) nel facet d.

Per escludere il paradosso di Simpson è necessaria una metrica di disparità demografica condizionale nelle etichette previste (CDDPL) che condiziona DDPL sugli attributi che definiscono uno strato di sottogruppi nel set di dati. Il raggruppamento può fornire informazioni sulla causa delle apparenti disparità demografiche relative ai facet meno favoriti. Il caso classico è sorto nelle ammissioni a Berkeley, in cui gli uomini sono stati accettati a un tasso complessivo più elevato rispetto alle donne. Tuttavia, quando sono stati esaminati i sottogruppi dipartimentali, è stato dimostrato che le donne hanno tassi di ammissione più elevati rispetto agli uomini dal reparto. La spiegazione è data dal fatto che le donne si erano rivolte a reparti con tassi di accettazione inferiori rispetto agli uomini. L'esame dei tassi di accettazione suddivisi per sottogruppo ha rivelato che le donne erano effettivamente accettate a un tasso più elevato rispetto agli uomini nei dipartimenti con tassi di accettazione inferiori.

La metrica CDDPL fornisce un'unica misura per tutte le disparità riscontrate nei sottogruppi definiti da un attributo di un set di dati calcolandone la media. È definita come la media ponderata delle disparità demografiche nelle etichette previste (DDPLi) per ciascuno dei sottogruppi, con ogni disparità di sottogruppo ponderata in proporzione al numero di osservazioni contenute. La formula per la disparità demografica condizionata nelle etichette previste è la seguente:

        CDDPL = (1/n)*ini *DDPLi

Dove:

  • ini = è il numero totale di osservazioni e ni è il numero di osservazioni per ciascun sottogruppo.

  • DDPLi = n'i(0)/n(0) - n'i(1)/n(1) = PiR(y'0) - PiA(y'1) è la disparità demografica nelle etichette previste per sottogruppo.

La disparità demografica per un sottogruppo nelle etichette previste (DDPLi) è la differenza tra la percentuale di etichette previste rifiutate e la percentuale di etichette accettate previste per ciascun sottogruppo.

L'intervallo di valori DDPL per esiti binari, multicategoria e continui è [-1,+1].

  • +1: quando non esistono etichette di rifiuto previste per il facet a o il sottogruppo e non sono previste accettazioni per il facet d o il sottogruppo.

  • I valori positivi indicano che esiste una disparità demografica nelle etichette previste, poiché il facet d o il sottogruppo hanno una percentuale maggiore di etichette rifiutate previste rispetto alle etichette accettate previste. Più alto è il valore, maggiore è la disparità.

  • I valori vicini allo zero indicano l'assenza di disparità demografica, in media.

  • I valori negativi indicano che esiste una disparità demografica nelle etichette previste, poiché il facet a o il sottogruppo presenta una percentuale maggiore di etichette rifiutate previste rispetto alle etichette accettate previste. Più basso è il valore, maggiore è la disparità.

  • -1: quando non sono previste etichette di rifiuto per il facet d o il sottogruppo e accettazioni previste per il facet a o il sottogruppo.