Unterschied zwischen positiven Anteilen bei prognostizierten Kennzeichnungen (DPPL) - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Unterschied zwischen positiven Anteilen bei prognostizierten Kennzeichnungen (DPPL)

Der Unterschied zwischen den positiven Anteilen in der Metrik für vorhergesagte Kennzeichnungen (DPPL) bestimmt, ob das Modell die Ergebnisse für jede Facet unterschiedlich vorhersagt. Sie ist definiert als die Differenz zwischen dem Anteil positiver Vorhersagen (y' = 1) für Facet a und dem Anteil positiver Vorhersagen (y' = 1) für Facet d. Wenn die Modellprognosen beispielsweise Kredite für 60% einer Gruppe mittleren Alters (Facet a) und 50% für andere Altersgruppen (Facet d) gewähren, könnte dies gegenüber Facet d voreingenommen sein. In diesem Beispiel müssen Sie ermitteln, ob der Unterschied von 10% wesentlich für eine Verzerrung ist.

Durch einen Vergleich des Unterschieds in den Labelproportionen (DPL), einem Maß für Verzerrungen vor dem Training, mit DPPL, einem Maß für die Verzerrung nach dem Training, wird bewertet, ob sich die anfänglich im Datensatz vorhandenen positiven Ausmaße nach dem Training ändern. Wenn der DPPL größer als der DPL ist, nimmt der positive Bias nach dem Training zu. Wenn DPPL kleiner als DPL ist, erhöhte das Modell die Verzerrung nach dem Training nicht positiv. Der Vergleich von DPL mit DPPL garantiert nicht, dass das Modell Verzerrungen in allen Dimensionen reduziert. Beispielsweise kann das Modell immer noch verzerrt sein, wenn andere Kennzahlen wie oder berücksichtigt werden. Kontrafaktischer Fliptest (FT) Genauigkeitsunterschied (AD) Weitere Informationen zur Erkennung von Verzerrungen finden Sie im Blogbeitrag Erfahren Sie, wie Amazon SageMaker Clarify bei der Erkennung von Verzerrungen hilft. Unterschied in den Proportionen der Beschriftungen (DPL)Weitere Informationen zu DPL finden Sie unter.

Die Formel für die DPPL lautet:

        DPPL = q'a – q'd

Wobei gilt:

  • q'a = n'a(1)/na ist der vorhergesagte Anteil der Facet a, die ein positives Ergebnis mit dem Wert 1 erzielen. In unserem Beispiel ist dies der Anteil der Personen mittleren Alters, für die prognostiziert wurde, dass ihnen ein Kredit gewährt wird. Hier steht n'a(1) für die Anzahl der Mitglieder der Facet a, die ein positives vorhergesagtes Ergebnis mit dem Wert 1 erzielen, und n a für die Anzahl der Mitglieder der Facet a.

  • q'd = n'd(1)/nd ist der vorhergesagte Anteil der Facet d, die ein positives Ergebnis mit dem Wert 1 erzielen. In unserem Beispiel wurde für eine Facet älterer und jüngerer Menschen prognostiziert, dass ihnen ein Kredit gewährt wird. Hier steht n'd(1) für die Anzahl der Mitglieder der Facet d, die ein positives prognostiziertes Ergebnis erzielen, und nd für die Anzahl der Mitglieder der Facet d.

Wenn DPPL nahe genug an 0 liegt, bedeutet dies, dass die demografische Parität nach der Ausbildung erreicht wurde.

Bei binären und mehrkategorialen Facetnbezeichnungen bewegen sich die normalisierten DPL-Werte über das Intervall [-1, 1]. Bei kontinuierlichen Beschriftungen variieren die Werte über das Intervall (-∞, +∞).

  • Positive DPPL-Werte weisen darauf hin, dass Facet a im Vergleich zu Facet d einen höheren Anteil an prognostizierten positiven Ergebnissen aufweist.

    Dies wird als positive Verzerrung bezeichnet.

  • DPPL-Werte nahe Null deuten auf einen gleichmäßigeren Anteil der vorhergesagten positiven Ergebnisse zwischen den Facetn a und d hin, und ein Wert von Null weist auf eine perfekte demografische Parität hin.

  • Negative DPPL-Werte deuten darauf hin, dass Facet d im Vergleich zu Facet a einen höheren Anteil an prognostizierten positiven Ergebnissen aufweist. Dies wird als negativer Bias bezeichnet.