Erkennen Sie Datenverzerrungen Bias vor dem Training - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erkennen Sie Datenverzerrungen Bias vor dem Training

Algorithmische Voreingenommenheit, Diskriminierung, Fairness und verwandte Themen wurden in verschiedenen Disziplinen wie Recht, Politik und Informatik untersucht. Ein Computersystem kann als voreingenommen angesehen werden, wenn es bestimmte Personen oder Personengruppen diskriminiert. Die Modelle des Machine Learnings, die diesen Anwendungen zugrunde liegen, lernen aus Daten, und diese Daten könnten Disparitäten oder andere inhärente Verzerrungen widerspiegeln. Beispielsweise sind das Trainingsdaten möglicherweise nicht ausreichend für verschiedene demografische Gruppen repräsentativ oder enthalten verzerrte Bezeichnungen. Die Modelle des Machine Learnings, die mit Datensätzen trainiert wurden, die diese Verzerrungen aufweisen, könnten sie am Ende lernen und diese Verzerrungen dann in ihren Vorhersagen reproduzieren oder sogar verschärfen. Der Bereich des Machine Learnings bietet die Möglichkeit, Verzerrungen zu beheben, indem sie in jeder Phase des ML-Lebenszyklus erkannt und gemessen werden. Sie können Amazon SageMaker Clarify verwenden, um festzustellen, ob die für Trainingsmodelle verwendeten Daten Verzerrungen kodieren.

Verzerrungen können vor dem Training und nach dem Training gemessen und nach der Bereitstellung von Modellen an Endpunkten zur Ableitung anhand von Ausgangswerten überwacht werden. Bias-Metriken vor dem Training dienen dazu, Verzerrungen in den Rohdaten zu erkennen und zu messen, bevor sie zum Trainieren eines Modells verwendet werden. Die verwendeten Metriken sind modellunabhängig, da sie nicht von Modellergebnissen abhängen. Es gibt jedoch unterschiedliche Fairness-Konzepte, die unterschiedliche Messgrößen der Voreingenommenheit erfordern. Amazon SageMaker Clarify bietet Bias-Metriken zur Quantifizierung verschiedener Fairness-Kriterien.

Weitere Informationen zu Bias-Metriken finden Sie unter Erfahren Sie, wie Amazon SageMaker Clarify hilft, Bias- und Fairnessmaßnahmen für Machine Learning im Finanzwesen zu erkennen.

Amazon SageMaker klärt die Bedingungen für Voreingenommenheit und Fairness

SageMaker Clarify verwendet die folgende Terminologie, um Vorurteile und Fairness zu erörtern.

Funktion

Eine einzelne messbare Eigenschaft oder ein Feature eines beobachteten Phänomens, das in einer Spalte für tabellarische Daten enthalten ist.

Label (Bezeichnung)

Funktion, die das Ziel für das Training eines Machine-Learning-Modells ist. Wird als beobachtete Beschriftung oder beobachtetes Ergebnis bezeichnet.

Voraussichtliche Beschriftung

Die vom Modell vorhergesagte Bezeichnung. Wird auch als vorhergesagtes Ergebnis bezeichnet.

Beispiel

Eine beobachtete Entität, die durch Featureswerte und Beschriftungswert beschrieben wird und in einer Zeile für Tabellendaten enthalten ist.

Datensatz

Eine Sammlung von Proben.

Bias

Ein Ungleichgewicht der Trainingsdaten oder des Prognoseverhaltens des Modells in Bezug auf verschiedene Gruppen, z. B. Alter oder Einkommensgruppe. Verzerrungen können auf die Daten oder den Algorithmus zurückzuführen sein, die zum Trainieren Ihres Modells verwendet wurden. Wenn ein ML-Modell beispielsweise hauptsächlich auf Daten von Personen mittleren Alters trainiert wird, ist es möglicherweise weniger genau, wenn Vorhersagen getroffen werden, an denen jüngere und ältere Menschen beteiligt sind.

Bias-Metrik

Eine Funktion, die numerische Werte zurückgibt, die den Grad einer potenziellen Verzerrung angeben.

Bericht über Verzerrungen

Eine Sammlung von Bias-Metriken für einen bestimmten Datensatz oder eine Kombination aus einem Datensatz und einem Modell.

Positive Beschriftungswerte

Kennzeichnen Sie Werte, die für eine in einer Stichprobe beobachtete demografische Gruppe günstig sind. Mit anderen Worten, bezeichnet eine Stichprobe als positiv.

Negative Beschriftungswerte

Kennzeichnen Sie Werte, die für eine in einer Stichprobe beobachtete demografische Gruppe ungünstig sind. Mit anderen Worten, bezeichnet eine Stichprobe als negativ.

Gruppenvariable

Kategorische Spalte des Datensatzes, der zur Bildung von Untergruppen für die Messung der bedingten demografischen Disparität () verwendet wird. CDD Nur für diese Metrik im Hinblick auf das Simpson-Paradoxon erforderlich.

Facet

Eine Spalte oder ein Feature, das die Attribute enthält, anhand derer die systematische Abweichung gemessen wird.

Facettenwert

Die Featureswerte von Attributen, die aufgrund von Verzerrungen bevorzugt oder negativ bewertet werden können.

Prognostizierte Wahrscheinlichkeit

Die vom Modell vorhergesagte Wahrscheinlichkeit, dass eine Stichprobe zu einem positiven oder negativen Ergebnis führt.

Beispiel-Notebooks

Amazon SageMaker Clarify bietet das folgende Muster-Notizbuch zur Erkennung von Verzerrungen an:

Es wurde verifiziert, dass dieses Notizbuch nur in Amazon SageMaker Studio ausgeführt werden kann. Anweisungen zum Öffnen eines Notizbuchs in Amazon SageMaker Studio finden Sie unterErstellen oder öffnen Sie ein Amazon SageMaker Studio Classic-Notizbuch. Wenn Sie aufgefordert werden, einen Kernel auszuwählen, wählen Sie Python 3 (Data Science).