Unterschied zwischen positiven Anteilen bei prognostizierten Kennzeichnungen (DPPL)

Der Unterschied zwischen den positiven Anteilen in der Metrik für vorhergesagte Kennzeichnungen (DPPL) bestimmt, ob das Modell die Ergebnisse für jede Facet unterschiedlich vorhersagt. Sie ist definiert als die Differenz zwischen dem Anteil positiver Vorhersagen (y' = 1) für Facet a und dem Anteil positiver Vorhersagen (y' = 1) für Facet d. Wenn die Modellprognosen beispielsweise Kredite für 60% einer Gruppe mittleren Alters (Facet a) und 50% für andere Altersgruppen (Facet d) gewähren, könnte dies gegenüber Facet d voreingenommen sein. In diesem Beispiel müssen Sie ermitteln, ob der Unterschied von 10% wesentlich für eine Verzerrung ist.

Durch einen Vergleich des Unterschieds in den Labelproportionen (DPL), einem Maß für Verzerrungen vor dem Training, mit DPPL, einem Maß für die Verzerrung nach dem Training, wird bewertet, ob sich die anfänglich im Datensatz vorhandenen positiven Ausmaße nach dem Training ändern. Wenn der DPPL größer als der DPL ist, nimmt der positive Bias nach dem Training zu. Wenn DPPL kleiner als DPL ist, erhöhte das Modell die Verzerrung nach dem Training nicht positiv. Der Vergleich von DPL mit DPPL garantiert nicht, dass das Modell Verzerrungen in allen Dimensionen reduziert. Beispielsweise kann das Modell immer noch verzerrt sein, wenn andere Kennzahlen wie oder berücksichtigt werden. Kontrafaktischer Fliptest (FT) Genauigkeitsunterschied (AD) Weitere Informationen zur Erkennung von Verzerrungen finden Sie im Blogbeitrag Erfahren Sie, wie Amazon SageMaker Clarify bei der Erkennung von Verzerrungen hilft. Unterschied in den Proportionen der Beschriftungen (DPL)Weitere Informationen zu DPL finden Sie unter.

Die Formel für die DPPL lautet:

DPPL = q'_a – q'_d

Wobei gilt:

q'_a = n'_a⁽¹⁾/n_a ist der vorhergesagte Anteil der Facet a, die ein positives Ergebnis mit dem Wert 1 erzielen. In unserem Beispiel ist dies der Anteil der Personen mittleren Alters, für die prognostiziert wurde, dass ihnen ein Kredit gewährt wird. Hier steht n'_a⁽¹⁾ für die Anzahl der Mitglieder der Facet a, die ein positives vorhergesagtes Ergebnis mit dem Wert 1 erzielen, und n _a für die Anzahl der Mitglieder der Facet a.
q'_d = n'_d⁽¹⁾/n_d ist der vorhergesagte Anteil der Facet d, die ein positives Ergebnis mit dem Wert 1 erzielen. In unserem Beispiel wurde für eine Facet älterer und jüngerer Menschen prognostiziert, dass ihnen ein Kredit gewährt wird. Hier steht n'_d⁽¹⁾ für die Anzahl der Mitglieder der Facet d, die ein positives prognostiziertes Ergebnis erzielen, und n_d für die Anzahl der Mitglieder der Facet d.

Wenn DPPL nahe genug an 0 liegt, bedeutet dies, dass die demografische Parität nach der Ausbildung erreicht wurde.

Bei binären und mehrkategorialen Facetnbezeichnungen bewegen sich die normalisierten DPL-Werte über das Intervall [-1, 1]. Bei kontinuierlichen Beschriftungen variieren die Werte über das Intervall (-∞, +∞).

Positive DPPL-Werte weisen darauf hin, dass Facet a im Vergleich zu Facet d einen höheren Anteil an prognostizierten positiven Ergebnissen aufweist.

Dies wird als positive Verzerrung bezeichnet.
DPPL-Werte nahe Null deuten auf einen gleichmäßigeren Anteil der vorhergesagten positiven Ergebnisse zwischen den Facetn a und d hin, und ein Wert von Null weist auf eine perfekte demografische Parität hin.
Negative DPPL-Werte deuten darauf hin, dass Facet d im Vergleich zu Facet a einen höheren Anteil an prognostizierten positiven Ergebnissen aufweist. Dies wird als negativer Bias bezeichnet.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Messen Sie Daten nach dem Training und modellieren Sie Verzerrungen

Disparate Impact (DI)