Bedingte demografische Disparität bei prognostizierten Beschriftungen (CDDPL) - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Bedingte demografische Disparität bei prognostizierten Beschriftungen (CDDPL)

Die demografische Disparitätsmetrik (DDPL) bestimmt, ob die Facet d einen größeren Anteil an den vorhergesagten abgelehnten Beschriftungen als an den vorhergesagten akzeptierten Beschriftungen hat. Sie ermöglicht einen Vergleich der Unterschiede zwischen dem prognostizierten Ablehnungsanteil und dem prognostizierten Akzeptanzanteil zwischen den einzelnen Facetn. Diese Metrik entspricht exakt der CDD-Metrik vor dem Training, mit der Ausnahme, dass sie anhand der vorhergesagten und nicht anhand der beobachteten Werte berechnet wird. Diese Metrik liegt im Bereich (-1, +1).

Die Formel für die Prognosen zur demografischen Disparität für Beschriftungen der Facet lautet wie folgt:

        DDPLd = n'd(0)/n'(0) – n'd(1)/n'(1) = PdR(y'0) – PdA(y'1)

Wobei gilt:

  • n'(0) = n'a(0) + n'd(0) ist die Anzahl der vorhergesagten zurückgewiesenen Beschriftungen für die Facetn a und d.

  • n'(1) = n'a(1) + n'd(1) ist die Anzahl der vorhergesagten akzeptierten Beschriftungen für die Facetn a und d.

  • PdR(y'0) ist der Anteil der vorhergesagten zurückgewiesenen Beschriftungen (Wert 0) in Facet d.

  • PdA(y'1) ist der Anteil der vorhergesagten akzeptierten Beschriftungen (Wert 1) in Facet d.

Um das Simpson-Paradoxon auszuschließen, ist eine CDDPL-Metrik (Vorhersehbare demografische Ungleichheit bei den vorhergesagten Beschriftungen) erforderlich, die DDPL anhand von Attributen konditioniert, die eine Schicht von Untergruppen im Datensatz definieren. Die Umgruppierung kann Aufschluss über die Ursache offensichtlicher demografischer Disparitäten bei benachteiligten Facetn geben. Der klassische Fall trat bei den Zulassungen in Berkeley auf, wo Männer insgesamt häufiger aufgenommen wurden als Frauen. Bei der Untersuchung der Untergruppen der einzelnen Abteilungen wurde jedoch festgestellt, dass Frauen nach Abteilungen höhere Zulassungsquoten aufwiesen als Männer. Die Erklärung dafür war, dass sich Frauen in Abteilungen mit niedrigeren Zulassungsquoten beworben hatten als Männer. Die Untersuchung der Akzeptanzquoten der Untergruppen ergab, dass Frauen in den Abteilungen mit niedrigeren Annahmequoten tatsächlich häufiger aufgenommen wurden als Männer.

Die CDDPL-Metrik liefert eine einzige Messgröße für alle Disparitäten, die in den durch ein Attribut eines Datensatzes definierten Untergruppen gefunden wurden, indem sie gemittelt werden. Sie ist definiert als gewichteter Durchschnitt der demografischen Disparitäten in vorhergesagten Kennzeichnungen (DDPLi) für jede der Untergruppen, wobei jede Untergruppendisparität proportional zur Anzahl der darin enthaltenen Beobachtungen gewichtet wird. Die Formel für die bedingte demografische Disparität in den Kategorien vorhergesagter Prognosen lautet wie folgt:

        CDDPL = (1/n)*ini *DDPLi

Wobei gilt:

  • ini = n ist die Gesamtzahl der Beobachtungen und niist die Anzahl der Beobachtungen für jede Untergruppe.

  • DDPLi = n'i(0)/n(0) – n'i(1)/n(1) = PiR(y'0) – PiA(y'1) ist die demografische Disparität der vorhergesagten Beschriftungen für die Untergruppe.

Die demografische Disparität für eine Untergruppe in vorhergesagten Kennzeichnungen (DDPLi) ist also die Differenz zwischen dem Anteil der vorhergesagten abgelehnten Kennzeichnungen und dem Anteil der vorhergesagten akzeptierten Kennzeichnungen für jede Untergruppe.

Der Bereich der DDPL-Werte für binäre, mehrkategoriale und kontinuierliche Ergebnisse ist [-1, +1].

  • +1: wenn es keine vorhergesagten Ablehnungskennzeichnungen für Facet a oder Untergruppe und keine vorhergesagten Annahmen für Facet d oder Untergruppe gibt.

  • Positive Werte deuten auf demografische Unterschiede bei den vorhergesagten Beschriftungen hin, da Facet d oder Untergruppe einen größeren Anteil der vorhergesagten abgelehnten Beschriftungen als der vorhergesagten akzeptierten Beschriftungen hat. Je höher der Wert, desto größer die Disparität.

  • Werte nahe Null deuten darauf hin, dass im Durchschnitt keine demografische Disparität besteht.

  • Negative Werte deuten auf demografische Unterschiede bei den vorhergesagten Kennzeichnungen hin, da Facet a oder Untergruppe einen größeren Anteil der prognostizierten abgelehnten Kennzeichnungen als der vorhergesagten akzeptierten Kennzeichnungen hat. Je niedriger der Wert, desto größer die Disparität.

  • -1: wenn es für Facet d oder Untergruppe keine prognostizierten Abstoßungsreffer und für Facet a oder Untergruppe keine vorhergesagten Akzeptanzwerte gibt.