Erkennen Sie Datenverzerrungen Bias vor der Schulung - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erkennen Sie Datenverzerrungen Bias vor der Schulung

Algorithmische Voreingenommenheit, Diskriminierung, Fairness und verwandte Themen wurden in verschiedenen Disziplinen wie Recht, Politik und Informatik untersucht. Ein Computersystem kann als voreingenommen angesehen werden, wenn es bestimmte Personen oder Personengruppen diskriminiert. Die Modelle des Machine Learnings, die diesen Anwendungen zugrunde liegen, lernen aus Daten, und diese Daten könnten Disparitäten oder andere inhärente Verzerrungen widerspiegeln. Beispielsweise sind die Schulungsdaten möglicherweise nicht ausreichend für verschiedene demografische Gruppen repräsentativ oder enthalten verzerrte Bezeichnungen. Die Modelle des Machine Learnings, die mit Datensätzen geschult wurden, die diese Verzerrungen aufweisen, könnten sie am Ende lernen und diese Verzerrungen dann in ihren Vorhersagen reproduzieren oder sogar verschärfen. Der Bereich des Machine Learnings bietet die Möglichkeit, Verzerrungen zu beheben, indem sie in jeder Phase des ML-Lebenszyklus erkannt und gemessen werden. Sie können Amazon SageMaker Clarify verwenden, um festzustellen, ob Daten, die für Trainingsmodelle verwendet werden, Verzerrungen kodieren

Verzerrungen können vor der Schulung und nach der Schulung gemessen und nach der Bereitstellung von Modellen an Endpunkten zur Ableitung anhand von Ausgangswerten überwacht werden. Bias-Metriken vor der Schulung dienen dazu, Verzerrungen in den Rohdaten zu erkennen und zu messen, bevor sie zum Schulen eines Modells verwendet werden. Die verwendeten Metriken sind modellunabhängig, da sie nicht von Modellergebnissen abhängen. Es gibt jedoch unterschiedliche Fairness-Konzepte, die unterschiedliche Messgrößen der Voreingenommenheit erfordern. Amazon SageMaker Clarify bietet Bias-Metriken, um verschiedene Fairnesskriterien zu quantifizieren.

Weitere Informationen zu Bias-Metriken finden Sie unter Erfahren Sie, wie Amazon SageMaker Clarify dabei hilft, Verzerrungen und Fairness-Metriken für Machine Learning im Finanzwesen zu erkennen. Machine Learning

Begriffe von Amazon SageMaker Clarify für Verzerrungen und Fairness

SageMaker Clarify verwendet die folgende Terminologie, um Voreingenommenheit und Fairness zu erörtern.

Funktion

Eine einzelne messbare Eigenschaft oder ein Feature eines beobachteten Phänomens, das in einer Spalte für tabellarische Daten enthalten ist.

Label (Bezeichnung)

Funktion, die das Ziel für die Schulung eines Machine-Learning-Modells ist. Wird als beobachtete Beschriftung oder beobachtetes Ergebnis bezeichnet.

Voraussichtliche Beschriftung

Die vom Modell vorhergesagte Bezeichnung. Wird auch als vorhergesagtes Ergebnis bezeichnet.

Beispiel

Eine beobachtete Entität, die durch Featureswerte und Beschriftungswert beschrieben wird und in einer Zeile für Tabellendaten enthalten ist.

Dataset

Eine Sammlung von Proben.

Bias

Ein Ungleichgewicht der Schulungsdaten oder des Prognoseverhaltens des Modells in Bezug auf verschiedene Gruppen, z. B. Alter oder Einkommensgruppe. Verzerrungen können auf die Daten oder den Algorithmus zurückzuführen sein, die zum Schulen Ihres Modells verwendet wurden. Wenn ein ML-Modell beispielsweise hauptsächlich auf Daten von Personen mittleren Alters geschult wird, ist es möglicherweise weniger genau, wenn Vorhersagen getroffen werden, an denen jüngere und ältere Menschen beteiligt sind.

Bias-Metrik

Eine Funktion, die numerische Werte zurückgibt, die den Grad einer potenziellen Verzerrung angeben.

Bericht über Verzerrungen

Eine Sammlung von Bias-Metriken für einen bestimmten Datensatz oder eine Kombination aus einem Datensatz und einem Modell.

Positive Beschriftungswerte

Kennzeichnen Sie Werte, die für eine in einer Stichprobe beobachtete demografische Gruppe günstig sind. Mit anderen Worten, bezeichnet eine Stichprobe als positiv.

Negative Beschriftungswerte

Kennzeichnen Sie Werte, die für eine in einer Stichprobe beobachtete demografische Gruppe ungünstig sind. Mit anderen Worten, bezeichnet eine Stichprobe als negativ.

Gruppenvariable

Kategorische Spalte des Datensatzes, der zur Bildung von Untergruppen für die Messung der bedingten demografischen Disparität (CDD) verwendet wird. Nur für diese Metrik im Hinblick auf das Simpson-Paradoxon erforderlich.

Facet

Eine Spalte oder ein Feature, das die Attribute enthält, anhand derer die systematische Abweichung gemessen wird.

Facettenwert

Die Featureswerte von Attributen, die aufgrund von Verzerrungen bevorzugt oder negativ bewertet werden können.

Prognostizierte Wahrscheinlichkeit

Die vom Modell vorhergesagte Wahrscheinlichkeit, dass eine Stichprobe zu einem positiven oder negativen Ergebnis führt.

Beispiel-Notebooks

Amazon SageMaker Clarify bietet das folgende Beispiel-Notebook zur Erkennung von Verzerrungen:

Dieses Notebook wurde so überprüft, dass es nur in Amazon SageMaker Studio ausgeführt wird. Anweisungen zum Öffnen eines Notebooks in Amazon SageMaker Studio finden Sie unter Erstellen oder Öffnen eines Amazon SageMaker Studio Classic Notebooks. Wenn Sie aufgefordert werden, einen Kernel auszuwählen, wählen Sie Python 3 (Data Science).