Differenza nelle proporzioni positive delle etichette previste (DPPL) - Amazon SageMaker

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Differenza nelle proporzioni positive delle etichette previste (DPPL)

La differenza nelle proporzioni positive nella metrica delle etichette previste (DPPL) determina se il modello prevede i risultati in modo diverso per ogni facet. È definita come la differenza tra la proporzione di previsioni positive (y' = 1) per il facet a e la proporzione di previsioni positive (y' = 1) per il facet d. Ad esempio, se le previsioni del modello concedono prestiti al 60% di un gruppo di mezza età (facet a) e al 50% ad altri gruppi di età (facet d), il modello potrebbe essere distorto rispetto al facet d. In questo esempio, è necessario determinare se la differenza del 10% è rilevante ai fini di un’eventuale distorsione.

Un confronto tra la differenza nelle proporzioni delle etichette (DPL), una misura dei pregiudizi prima dell'allenamento, e la DPPL, una misura della distorsione post-allenamento, valuta se i pregiudizi nelle proporzioni positive inizialmente presenti nel set di dati cambino dopo l'allenamento. Se DPPL è maggiore del DPL, la distorsione in proporzioni positive è aumentata dopo l'allenamento. Se DPPL è inferiore a DPL, il modello non ha aumentato la distorsione in proporzioni positive dopo l'allenamento. Il confronto tra DPL e DPPL non garantisce che il modello riduca la distorsione in tutte le dimensioni. Ad esempio, il modello potrebbe essere ancora distorto se si considerano altre metriche come o. Fliptest controfattuale (FT) Differenza di precisione (AD) Per ulteriori informazioni sul rilevamento dei pregiudizi, consulta il post del blog Scopri come Amazon SageMaker Clarify aiuta a rilevare i pregiudizi. Differenza nelle proporzioni delle etichette (DPL)Per ulteriori informazioni su DPL, consulta.

La formula per il DPPL è:

        DPPL = q'a - q'd

Dove:

  • q'a = n'a(1)/na è la proporzione prevista del facet a che ottiene un risultato positivo di valore 1. Nel nostro esempio, si tratta della percentuale di persone di mezza età che si prevede otterrà un prestito. Qui n'a(1) rappresenta il numero di membri del facet a che ottengono un risultato previsto positivo di valore 1 e na il numero di membri del facet a.

  • q'd = n'd(1)/nd è la proporzione prevista del facet d che ottiene un risultato positivo di valore 1. Nel nostro esempio, si prevede che un facet di persone anziane e giovani otterrà un prestito. Qui n'd(1) rappresenta il numero di membri del facet d che ottengono un risultato previsto positivo e nd il numero di membri del facet d.

Se DPPL è sufficientemente vicino a 0, significa che la parità demografica post-addestramento è stata raggiunta.

Per le etichette di facet binarie e multicategoria, i valori DPL normalizzati variano nell'intervallo [-1, 1]. Per le etichette continue, i valori variano nell'intervallo (-∞, +∞).

  • I valori DPPL positivi indicano che il facet a ha una percentuale maggiore di risultati positivi previsti rispetto al facet d.

    Questo fenomeno viene definito distorsione positiva.

  • I valori di DPPL vicini allo zero indicano una proporzione più equa di risultati positivi previsti tra i facet a e d, mentre un valore pari a zero indica una perfetta parità demografica.

  • I valori DPPL negativi indicano che il facet d ha una percentuale maggiore di risultati positivi previsti rispetto al facet a. Questo fenomeno viene definito distorsione negativa.