Erkennen von Vortrainingsdaten Bias - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erkennen von Vortrainingsdaten Bias

Algorithmische Voreingenommenheit, Diskriminierung, Fairness und verwandte Themen wurden in Disziplinen wie Recht, Politik und Informatik untersucht. Ein Computersystem kann als voreingenommen angesehen werden, wenn es bestimmte Personen oder Personengruppen diskriminiert. Die Modelle des maschinellen Lernens, die diese Anwendungen betreiben, lernen aus Daten, und diese Daten könnten Disparitäten oder andere inhärente Vorurteile widerspiegeln. Beispielsweise haben die Trainingsdaten möglicherweise keine ausreichende Darstellung verschiedener demografischer Gruppen oder können voreingenommene Etiketten enthalten. Die Modelle des maschinellen Lernens, die auf Datensätzen trainiert wurden, die diese Vorurteile aufweisen, könnten sie letztendlich lernen und diese Vorurteile in ihren Vorhersagen dann reproduzieren oder sogar verschärfen. Der Bereich des maschinellen Lernens bietet die Möglichkeit, Verzerrungen anzugehen, indem sie sie in jeder Phase des ML-Lebenszyklus erkennen und messen. Sie können Amazon verwenden SageMaker Klären Sie, um festzustellen, ob Daten, die für Schulungsmodelle verwendet werden, jegliche Vorurteile

Bias kann vor dem Training und nach dem Training gemessen und nach der Bereitstellung von Modellen an Endpunkten zur Rückschlüsse auf Baselines überwacht werden. Vorschulungsbias-Metriken sind darauf ausgelegt, Bias in den Rohdaten zu erkennen und zu messen, bevor sie zum Trainieren eines Modells verwendet werden. Die verwendeten Metriken sind modellunabhängig, da sie nicht von Modellausgaben abhängen. Es gibt jedoch verschiedene Konzepte von Fairness, die eindeutige Voreingenommenheit erfordern. Amazon SageMaker Clarify bietet Bias-Kennzahlen zur Quantifizierung verschiedener Fairness-Kriterien.

Weitere Informationen zu Bias-Metriken finden Sie unterFairness-Maßnahmen für Machine Learning im Finanzwesenaus.

Amazon SageMaker Verdeutlichen Sie die Begriffe für Bias und Fairness

SageMaker Clarify verwendet die folgende Terminologie, um Voreingenommenheit und Fairness zu diskutieren.

Funktionsmerkmal

Eine individuelle messbare Eigenschaft oder Eigenschaft eines beobachteten Phänomens, das in einer Spalte für Tabellendaten enthalten ist.

Bezeichnung

Feature, das das Ziel ist, ein Modell für maschinelles Lernen zu trainieren. Wird als bezeichnet alsbeobachtete Bezeichnungoderbeobachtetes Ergebnisaus.

Vorausgesagtes Label

Das Label wie vom Modell vorhergesagt. Auch bezeichnet alsVorausgesagtes Ergebnisaus.

Beispiel

Eine beobachtete Entität, die durch Feature-Werte und Beschriftungswert beschrieben wird und in einer Zeile für Tabellendaten enthalten ist.

Dataset

Eine Sammlung von Proben.

Bias

Ein Ungleichgewicht der Trainingsdaten oder das Vorhersageverhalten des Modells in verschiedenen Gruppen, wie Alter oder Einkommensklasse. Verzerrungen können sich aus den Daten oder dem Algorithmus ergeben, mit denen Ihr Modell trainiert wird. Wenn beispielsweise ein ML-Modell hauptsächlich auf Daten von Personen mittleren Alters geschult wird, ist es möglicherweise weniger genau, wenn Vorhersagen mit jüngeren und älteren Menschen getroffen werden.

Bias-Metrik

Eine Funktion, die numerische Werte zurückgibt, die den Grad einer potenziellen Bias angeben.

Bias-Bericht

Eine Sammlung von Bias-Metriken für einen bestimmten Datensatz oder eine Kombination aus einem Datensatz und einem Modell.

Positive Beschriftungswerte

Kennzeichnungswerte, die für eine in einer Stichprobe beobachtete demografische Gruppe günstig sind. Mit anderen Worten, bezeichnet eine Stichprobe alspositives Ergebnisaus.

Negative Labelwerte

Kennzeichnungswerte, die für eine in einer Stichprobe beobachtete demografische Gruppe ungünstig sind. Mit anderen Worten, bezeichnet eine Stichprobe alsnegatives Ergebnisaus.

Gruppen-Variable

Kategorische Spalte des Datensatzes, der zur Bildung von Untergruppen zur Messung der bedingten demografischen Disparität (CDD) verwendet wird. Nur für diese Metrik in Bezug auf Simpsons Paradoxon erforderlich.

Facet

Eine Spalte oder ein Feature, das die Attribute enthält, in Bezug auf die Bias gemessen wird.

Facett-Wert

Die Feature-Werte von Attributen, die Bias bevorzugen oder ungünstigen könnten.

Vorausgesagte Wahrscheinlichkeit

Die Wahrscheinlichkeit, wie vom Modell vorhergesagt, dass eine Stichprobe ein positives oder negatives Ergebnis hat.

Beispiel-Notebooks

Amazon SageMaker Clarify stellt das folgende Beispiel-Notebook zur Bias-Erkennung bereit:

Dieses Notizbuch wurde für die Ausführung in Amazon überprüft SageMaker Nur Studio. Wenn Sie Anleitungen zum Öffnen eines Notebooks in Amazon benötigen SageMaker Studio, sieheErstellen oder öffnen Sie ein Amazon SageMaker Studio Notebookaus. Wenn Sie aufgefordert werden, einen Kernel auszuwählen, wählen SiePython 3 (Data Science)aus.