Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Unterschied in den Proportionen der Beschriftungen (DPL)

Fokusmodus
Unterschied in den Proportionen der Beschriftungen (DPL) - Amazon SageMaker KI

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Der Unterschied in den Beschriftungsanteilen (DPL) vergleicht den Anteil der beobachteten Ergebnisse mit positiven Kennzeichnungen für Facette d mit dem Anteil der beobachteten Ergebnisse mit positiven Kennzeichnungen für Facette in a Trainingsdatensatz. Sie könnten es beispielsweise verwenden, um den Anteil von Personen mittleren Alters (Facette a) und anderen Altersgruppen (Facette d) zu vergleichen, denen Finanzkredite gewährt wurden. Modelle für Machine Learning versuchen, die Entscheidungen im Zusammenhang mit Trainingsdaten so genau wie möglich nachzuahmen. Ein Modell für Machine Learning, das auf einem Datensatz mit einem hohen DPL trainiert wurde, wird also wahrscheinlich dasselbe Ungleichgewicht in seinen future Prognosen widerspiegeln.

Die Formel für den Unterschied in den Proportionen der Beschriftungen lautet wie folgt:

        DPL = (qa – qd)

Wobei gilt:

  • qa = na(1)/na ist der Anteil der Facette a, die einen beobachteten Beschriftungswert von 1 haben. Zum Beispiel der Anteil der Bevölkerungsgruppe mittleren Alters, denen Kredite genehmigt werden. Dabei steht na(1) für die Anzahl der Mitglieder der Facette a, die ein positives Ergebnis erzielen und na für die Anzahl der Mitglieder der Facette a.

  • qd = nd(1)/nd ist der Anteil der Facette d, die einen beobachteten Beschriftungswert von 1 haben. Zum Beispiel der Anteil der Personen außerhalb der Bevölkerungsgruppe mittleren Alters, denen Kredite gewährt werden. Dabei steht nd(1) für die Anzahl der Mitglieder der Facette d, die ein positives Ergebnis erzielen, und nd für die Anzahl der Mitglieder der Facette d.

Wenn DPL nahe genug an 0 liegt, dann sagen wir, dass die demografische Parität erreicht wurde.

Bei binären und mehrkategorialen Facettenbeschriftungen bewegen sich die DPL-Werte über das Intervall (-1, 1). Für fortlaufende Beschriftungen legen wir einen Schwellenwert fest, um die Beschriftungen auf binäre Werte zu reduzieren.

  • Positive DPL-Werte weisen darauf hin, dass Facette a ist im Vergleich zu Facette d einen höheren Anteil an positiven Ergebnissen aufweist.

  • Werte von DPL nahe Null deuten auf einen gleichmäßigeren Anteil positiver Ergebnisse zwischen den Facetten hin, und ein Wert von Null weist auf eine perfekte demografische Parität hin.

  • Negative DPL-Werte deuten darauf hin, dass Facette d im Vergleich zu Facette a einen höheren Anteil an positiven Ergebnissen aufweist.

Ob ein hohes Ausmaß an DPL problematisch ist oder nicht, ist von Situation zu Situation unterschiedlich. In einem problematischen Fall könnte eine hohe DPL ein Hinweis auf zugrundeliegende Probleme in den Daten sein. Ein Datensatz mit einem hohen DPL könnte beispielsweise historische Vorurteile oder Vorurteile gegenüber altersbedingten demografischen Gruppen widerspiegeln, die für ein Modell nicht erwünscht wären, zu lernen.

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.