Amazon SageMaker klärt die Bedingungen für Voreingenommenheit und Fairness Beispiel-Notebooks

Datenverzerrung vor dem Training

Algorithmische Voreingenommenheit, Diskriminierung, Fairness und verwandte Themen wurden in verschiedenen Disziplinen wie Recht, Politik und Informatik untersucht. Ein Computersystem kann als voreingenommen angesehen werden, wenn es bestimmte Personen oder Personengruppen diskriminiert. Die Modelle des Machine Learnings, die diesen Anwendungen zugrunde liegen, lernen aus Daten, und diese Daten könnten Disparitäten oder andere inhärente Verzerrungen widerspiegeln. Beispielsweise sind das Trainingsdaten möglicherweise nicht ausreichend für verschiedene demografische Gruppen repräsentativ oder enthalten verzerrte Bezeichnungen. Die Modelle des Machine Learnings, die mit Datensätzen trainiert wurden, die diese Verzerrungen aufweisen, könnten sie am Ende lernen und diese Verzerrungen dann in ihren Vorhersagen reproduzieren oder sogar verschärfen. Der Bereich des Machine Learnings bietet die Möglichkeit, Verzerrungen zu beheben, indem sie in jeder Phase des ML-Lebenszyklus erkannt und gemessen werden. Sie können Amazon SageMaker Clarify verwenden, um festzustellen, ob die für Trainingsmodelle verwendeten Daten Verzerrungen kodieren.

Verzerrungen können vor dem Training und nach dem Training gemessen und nach der Bereitstellung von Modellen an Endpunkten zur Ableitung anhand von Ausgangswerten überwacht werden. Bias-Metriken vor dem Training dienen dazu, Verzerrungen in den Rohdaten zu erkennen und zu messen, bevor sie zum Trainieren eines Modells verwendet werden. Die verwendeten Metriken sind modellunabhängig, da sie nicht von Modellergebnissen abhängen. Es gibt jedoch unterschiedliche Fairness-Konzepte, die unterschiedliche Messgrößen der Voreingenommenheit erfordern. Amazon SageMaker Clarify bietet Bias-Metriken zur Quantifizierung verschiedener Fairness-Kriterien.

Weitere Informationen zu Bias-Metriken finden Sie unter Erfahren Sie, wie Amazon SageMaker Clarify hilft, Bias- und Fairnessmaßnahmen für Machine Learning im Finanzwesen zu erkennen.

Amazon SageMaker klärt die Bedingungen für Voreingenommenheit und Fairness

SageMaker Clarify verwendet die folgende Terminologie, um Vorurteile und Fairness zu erörtern.

Funktion: Eine einzelne messbare Eigenschaft oder ein Feature eines beobachteten Phänomens, das in einer Spalte für tabellarische Daten enthalten ist.
Label (Bezeichnung): Funktion, die das Ziel für das Training eines Machine-Learning-Modells ist. Wird als beobachtete Beschriftung oder beobachtetes Ergebnis bezeichnet.
Voraussichtliche Beschriftung: Die vom Modell vorhergesagte Bezeichnung. Wird auch als vorhergesagtes Ergebnis bezeichnet.
Beispiel: Eine beobachtete Entität, die durch Featureswerte und Beschriftungswert beschrieben wird und in einer Zeile für Tabellendaten enthalten ist.
Datensatz: Eine Sammlung von Proben.
Bias: Ein Ungleichgewicht der Trainingsdaten oder des Prognoseverhaltens des Modells in Bezug auf verschiedene Gruppen, z. B. Alter oder Einkommensgruppe. Verzerrungen können auf die Daten oder den Algorithmus zurückzuführen sein, die zum Trainieren Ihres Modells verwendet wurden. Wenn ein ML-Modell beispielsweise hauptsächlich auf Daten von Personen mittleren Alters trainiert wird, ist es möglicherweise weniger genau, wenn Vorhersagen getroffen werden, an denen jüngere und ältere Menschen beteiligt sind.
Bias-Metrik: Eine Funktion, die numerische Werte zurückgibt, die den Grad einer potenziellen Verzerrung angeben.
Bericht über Verzerrungen: Eine Sammlung von Bias-Metriken für einen bestimmten Datensatz oder eine Kombination aus einem Datensatz und einem Modell.
Positive Beschriftungswerte: Kennzeichnen Sie Werte, die für eine in einer Stichprobe beobachtete demografische Gruppe günstig sind. Mit anderen Worten, bezeichnet eine Stichprobe als positiv.
Negative Beschriftungswerte: Kennzeichnen Sie Werte, die für eine in einer Stichprobe beobachtete demografische Gruppe ungünstig sind. Mit anderen Worten, bezeichnet eine Stichprobe als negativ.
Gruppenvariable: Kategorische Spalte des Datensatzes, der zur Bildung von Untergruppen für die Messung der bedingten demografischen Disparität (CDD) verwendet wird. Nur für diese Metrik im Hinblick auf das Simpson-Paradoxon erforderlich.
Facet: Eine Spalte oder ein Feature, das die Attribute enthält, anhand derer die systematische Abweichung gemessen wird.
Facettenwert: Die Featureswerte von Attributen, die aufgrund von Verzerrungen bevorzugt oder negativ bewertet werden können.
Prognostizierte Wahrscheinlichkeit: Die vom Modell vorhergesagte Wahrscheinlichkeit, dass eine Stichprobe zu einem positiven oder negativen Ergebnis führt.

Beispiel-Notebooks

Amazon SageMaker Clarify bietet das folgende Muster-Notizbuch zur Erkennung von Verzerrungen an:

Erklärbarkeit und Erkennung von Verzerrungen mit Amazon SageMaker Clarify — Verwenden Sie SageMaker Clarify, um einen Verarbeitungsjob zur Erkennung von Verzerrungen und zur Erklärung von Modellvorhersagen mit Feature-Attributionen zu erstellen.

Es wurde verifiziert, dass dieses Notizbuch nur in Amazon SageMaker Studio ausgeführt werden kann. Anweisungen zum Öffnen eines Notizbuchs in Amazon SageMaker Studio finden Sie unterErstellen oder öffnen Sie ein Amazon SageMaker Studio Classic-Notizbuch. Wenn Sie aufgefordert werden, einen Kernel auszuwählen, wählen Sie Python 3 (Data Science).

Themen

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Fehlerbehebung bei Aufträgen

Messwerte zu Verzerrungen vor dem Training