Erhalten Sie Einblicke in Daten und Datenqualität - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erhalten Sie Einblicke in Daten und Datenqualität

Verwenden Sie den Datenqualitäts- und Insights-Bericht, um eine Analyse der Daten durchzuführen, die Sie in Data Wrangler importiert haben. Wir empfehlen, dass Sie den Bericht erstellen, nachdem Sie Ihren Datensatz importiert haben. Sie können den Bericht verwenden, um Ihre Daten zu bereinigen und zu verarbeiten. Er gibt Ihnen Informationen wie die Anzahl der fehlenden Werte und die Anzahl der Ausreißer. Wenn Sie Probleme mit Ihren Daten haben, wie z. B. undichte Zielstellen oder Ungleichgewichte, können Sie mithilfe des Insights-Berichts auf diese Probleme aufmerksam gemacht werden.

Gehen Sie wie folgt vor, um einen Datenqualitäts- und Insights-Bericht zu erstellen. Es wird davon ausgegangen, dass Sie bereits einen Datensatz in Ihren Data Wrangler-Flow importiert haben.

So erstellen Sie einen Datenqualitäts- und Insights-Bericht:
  1. Wählen Sie ein + neben einem Knoten in Ihrem Data Wrangler-Flow.

  2. Wählen Sie Dateneinblicke abrufen aus.

  3. Geben Sie unter Analysename einen Namen für den Insights-Bericht an.

  4. (Optional) Geben Sie für Zielspalte die Zielspalte an.

  5. Geben Sie als Problemtyp Regression oder Klassifizierung an.

  6. Geben Sie für Datengröße einen der folgenden Werte an:

    • 50 K – Verwendet die ersten 50000 Zeilen des Datensatzes, den Sie importiert haben, um den Bericht zu erstellen.

    • Gesamter Datensatz – Verwendet den gesamten Datensatz, den Sie importiert haben, um den Bericht zu erstellen.

    Anmerkung

    Für die Erstellung eines Datenqualitäts- und Insights-Berichts für den gesamten Datensatz wird ein SageMaker Amazon-Verarbeitungsjob verwendet. Ein SageMaker Verarbeitungsjob stellt die zusätzlichen Rechenressourcen bereit, die erforderlich sind, um Einblicke in all Ihre Daten zu erhalten. Weitere Informationen zur SageMaker Verarbeitung von Aufträgen finden Sie unterVerwenden Sie Verarbeitungsjobs, um Datenumwandlungs-Workloads auszuführen.

  7. Wählen Sie Erstellen.

Die folgenden Themen zeigen die Abschnitte des Berichts:

Sie können den Bericht entweder herunterladen oder online ansehen. Um den Bericht herunterzuladen, wählen Sie die Download-Schaltfläche in der oberen rechten Ecke des Bildschirms. Die folgende Abbildung zeigt die Schaltfläche.

Übersicht

Der Insights-Bericht enthält eine kurze Zusammenfassung der Daten, die allgemeine Informationen wie fehlende Werte, ungültige Werte, Merkmalstypen, Anzahl von Ausreißern und mehr enthält. Er kann auch Warnungen mit hohem Schweregrad enthalten, die auf wahrscheinliche Probleme mit den Daten hinweisen. Wir empfehlen Ihnen, die Warnungen zu überprüfen.

Nachfolgend finden Sie ein Beispiel einer Berichtszusammenfassung.

Zielspalte

Wenn Sie den Bericht über Datenqualität und Einblicke erstellen, bietet Ihnen Data Wrangler die Möglichkeit, eine Zielspalte auszuwählen. Eine Zielspalte ist eine Spalte, die Sie voraussagen möchten. Wenn Sie eine Zielspalte auswählen, erstellt Data Wrangler automatisch eine Zielspaltenanalyse. Außerdem werden die Merkmale in der Reihenfolge ihrer Voraussagekraft eingestuft. Wenn Sie eine Zielspalte auswählen, müssen Sie angeben, ob Sie versuchen, ein Regressions- oder ein Klassifizierungsproblem zu lösen.

Zur Klassifizierung zeigt Data Wrangler eine Tabelle und ein Histogramm der gängigsten Klassen. Eine Klasse ist eine Kategorie. Sie enthält auch Beobachtungen oder Zeilen mit einem fehlenden oder ungültigen Zielwert.

Die folgende Abbildung zeigt ein Beispiel für eine Zielspaltenanalyse für ein Klassifikationsproblem.

Für die Regression zeigt Data Wrangler ein Histogramm aller Werte in der Zielspalte. Sie enthält auch Beobachtungen oder Zeilen mit einem fehlenden, ungültigen oder einem Ausreißer-Zielwert.

Die folgende Abbildung zeigt ein Beispiel für eine Zielspaltenanalyse für ein Regressionsproblem.

Quick-Modell

Das Quick-Modell bietet eine Schätzung der erwarteten vorausgesagten Qualität eines Modells, das Sie anhand Ihrer Daten trainieren.

Data Wrangler teilt Ihren Datensatz in Trainings- und Validierungsbereiche auf. Es verwendet 80 % der Stichproben für das Training und 20 % der Werte für die Validierung. Zur Klassifizierung wird die Stichprobe stratifiziert und aufgeteilt. Bei einer stratifizierten Aufteilung hat jede Datenpartition das gleiche Verhältnis von Beschriftungen. Bei Klassifikationsproblemen ist es wichtig, dass das gleiche Verhältnis der Beschriftungen zwischen den Kategorien Training und Klassifikationsbereiche eingehalten wird. Data Wrangler trainiert das XGBoost-Modell mit den Standard-Hyperparametern. Es stoppt die Validierungsdaten frühzeitig und führt nur eine minimale Vorverarbeitung der Merkmale durch.

Bei Klassifikationsmodellen gibt Data Wrangler sowohl eine Modellzusammenfassung als auch eine Konfusionsmatrix zurück.

Im Folgenden finden Sie ein Beispiel für die Klassifizierung der Modellübersicht. Weitere Informationen zu den zurückgegebenen Informationen finden Sie unter Definitionen.

Es folgt ein Beispiel für eine Konfusionsmatrix, die das Quick-Modell zurückgibt.

Eine Konfusionsmatrix enthält die folgenden Informationen:

  • Gibt an, wie oft die vorausgesagte Beschriftung mit der wahren Beschriftung übereinstimmt.

  • Gibt an, wie oft die vorausgesagte Beschriftung mit der wahren Beschriftung nicht übereinstimmt.

Die wahre Beschriftung stellt eine tatsächliche Beobachtung in Ihren Daten dar. Wenn Sie beispielsweise ein Modell zur Erkennung betrügerischer Transaktionen verwenden, steht das True Label für eine Transaktion, die tatsächlich betrügerisch oder nicht betrügerisch ist. Das vorausgesagte Beschriftung steht für die Beschriftung, das Ihr Modell den Daten zuweist.

Anhand der Konfusionsmatrix können Sie ermitteln, wie gut das Modell das Vorliegen oder Nichtvorliegen einer Bedingung voraussagt. Wenn Sie betrügerische Transaktionen voraussagen, können Sie die Konfusionsmatrix verwenden, um sich ein Bild von der Sensibilität und Spezifität des Modells zu machen. Die Sensibilität bezieht sich auf die Fähigkeit des Modells, betrügerische Transaktionen zu erkennen. Die Spezifität bezieht sich auf die Fähigkeit des Modells, zu verhindern, dass nicht betrügerische Transaktionen als betrügerisch erkannt werden.

Es folgt ein Beispiel für Quick-Modell-Ausgaben für ein Regressionsproblem.

Übersicht der Funktionen

Wenn Sie eine Zielspalte angeben, ordnet Data Wrangler die Funktionen nach ihrer Voraussagekraft. Die Voraussagekraft wird anhand der Daten gemessen, nachdem sie zu 80 % in Trainingseinheiten und zu 20 % in Validierungsstufen aufgeteilt wurden. Data Wrangler passt ein Modell für jedes Merkmal separat im Trainingsbereich an. Es wendet nur eine minimale Merkmalsvorverarbeitung an und misst die Voraussageleistung anhand der Validierungsdaten.

Es normalisiert die Werte auf den Bereich [0,1]. Höhere Voraussagewerte weisen auf Spalten hin, die für die Voraussage des Ziels allein nützlicher sind. Niedrigere Werte weisen auf Spalten hin, die keine Voraussage für die Zielspalte bieten.

Es ist ungewöhnlich, dass eine Spalte, die für sich genommen nicht prädiktiv ist, prädiktiv ist, wenn sie zusammen mit anderen Spalten verwendet wird. Sie können die Voraussagewerte getrost verwenden, um zu bestimmen, ob eine Funktion in Ihrem Datensatz prädiktiv ist.

Ein niedriger Wert weist normalerweise darauf hin, dass die Funktion überflüssig ist. Ein Wert von 1 impliziert perfekte Voraussagefähigkeiten, was häufig auf undichte Zielstellen hindeutet. Undichte Zielstellen treten normalerweise auf, wenn der Datensatz eine Spalte enthält, die zum Voraussagezeitpunkt nicht verfügbar ist. Es könnte sich beispielsweise um ein Duplikat der Zielspalte handeln.

Im Folgenden finden Sie Beispiele für die Tabelle und das Histogramm, die den Voraussagewert der einzelnen Funktionen zeigen.

Beispiele

Data Wrangler liefert Informationen darüber, ob Ihre Stichproben anomal sind oder ob Ihr Datensatz Duplikate enthält.

Data Wrangler erkennt anomale Proben mithilfe des Isolation-Forest-Algorithmus. Der Isolation Forest ordnet jeder Stichprobe (Zeile) des Datensatzes einen Anomaliewert zu. Niedrige Anomaliewerte deuten auf anomale Proben hin. Hohe Werte stehen im Zusammenhang mit Proben, die nicht anomale Werte aufweisen. Proben mit einem negativen Anomaliewert gelten in der Regel als anomal und Proben mit einem positiven Anomaliewert gelten als nicht anomal.

Wenn Sie sich eine Probe ansehen, die möglicherweise anomal ist, empfehlen wir Ihnen, auf ungewöhnliche Werte zu achten. Beispielsweise könnten Sie ungewöhnliche Werte haben, die auf Fehler bei der Erfassung und Verarbeitung der Daten zurückzuführen sind. Im Folgenden finden Sie ein Beispiel für die anomalsten Stichproben gemäß der Implementierung des Isolation-Forest-Algorithmus durch Data Wrangler. Wir empfehlen, bei der Untersuchung der anomalen Stichproben Fachwissen und Geschäftslogik zu verwenden.

Data Wrangler erkennt doppelte Zeilen und berechnet das Verhältnis doppelter Zeilen in Ihren Daten. Einige Datenquellen könnten gültige Duplikate enthalten. Andere Datenquellen könnten Duplikate enthalten, die auf Probleme bei der Datensammlung hinweisen. Doppelte Stichproben, die aus einer fehlerhaften Datensammlung resultieren, könnten Machine-Learning-Prozesse beeinträchtigen, die auf der Aufteilung der Daten in unabhängige Trainings- und Validierungsbereiche beruhen.

Im Folgenden sind Elemente des Insights-Berichts aufgeführt, die durch doppelte Stichproben beeinträchtigt werden können:

  • Quick-Modell

  • Schätzung der Voraussageleistung

  • Automatische Hyperparameteroptimierung

Mithilfe der Transformation Drop-Duplikat unter Zeilen verwalten können Sie doppelte Stichproben aus dem Datensatz entfernen. Data Wrangler zeigt Ihnen die am häufigsten duplizierten Zeilen.

Definitionen

Im Folgenden finden Sie Definitionen für die Fachbegriffe, die im Data Insights-Bericht verwendet werden.

Feature types

Im Folgenden finden Sie die Definitionen für die einzelnen Funktionstypen:

  • Numerisch – Numerische Werte können entweder Gleitkommazahlen oder ganze Zahlen sein, z. B. Alter oder Einkommen. Bei Machine-Learning-Modellen wird davon ausgegangen, dass numerische Werte geordnet sind und eine Entfernung zwischen ihnen definiert ist. Zum Beispiel ist 3 näher an 4 als an 10 und 3 < 4 < 10.

  • Kategorisch – Die Spalteneinträge gehören zu einer Gruppe eindeutiger Werte, die normalerweise viel kleiner ist als die Anzahl der Einträge in der Spalte. Eine Spalte mit der Länge 100 könnte beispielsweise die eindeutigen Werte Dog, Cat und Mouse enthalten. Die Werte können numerisch, Text oder eine Kombination aus beidem sein. Horse, House, 8, Love und 3.1 wären alle gültige Werte und könnten in derselben kategorischen Spalte gefunden werden. Beim Machine-Learning-Modell wird im Gegensatz zu numerischen Features nicht von der Reihenfolge oder Entfernung der Werte kategorischer Features ausgegangen, selbst wenn es sich bei allen Werten um Zahlen handelt.

  • Binär – Binäre Funktionen sind ein besonderer kategorischer Featuretyp, bei dem die Kardinalität der Menge von eindeutigen Werten 2 ist.

  • Text – Eine Textspalte enthält viele nicht numerische eindeutige Werte. In extremen Fällen sind alle Elemente der Spalte eindeutig. Im Extremfall sind keine zwei Einträge identisch.

  • DateTime – Eine DateTime-Spalte enthält Informationen über das Datum oder die Uhrzeit. Es kann sowohl Informationen zum Datum als auch zur Uhrzeit enthalten.

Feature statistics

Im Folgenden finden Sie die Definitionen für die einzelnen Funktionsstatistiken:

  • Vorhersagekraft – Die Voraussagestärke gibt an, wie nützlich die Spalte für die Voraussage des Ziels ist.

  • Ausreißer (in numerischen Spalten) – Data Wrangler erkennt Ausreißer anhand von zwei Statistiken, die robust gegenüber Ausreißern sind: Median und robuste Standardabweichung (RSTD). RSTD wird abgeleitet, indem die Feature-Werte auf den Bereich [5 Perzentil, 95 Perzentil] zugeschnitten und die Standardabweichung des beschnittenen Vektors berechnet wird. Alle Werte, die größer als Median + 5 * RSTD oder kleiner als Median - 5 * RSTD sind, gelten als Ausreißer.

  • Schief (in numerischen Spalten) – Die Schiefe misst die Symmetrie der Verteilung und ist definiert als das dritte Moment der Verteilung geteilt durch die dritte Potenz der Standardabweichung. Die Schiefe der Normalverteilung oder einer anderen symmetrischen Verteilung ist Null. Positive Werte bedeuten, dass das rechte Ende der Verteilung länger ist als das linke Ende. Positive Werte bedeuten, dass das rechte Ende der Verteilung länger ist als das linke Ende. Als Faustregel gilt, dass eine Verteilung als schief betrachtet wird, wenn der absolute Wert der Schräglage größer als 3 ist.

  • Kurtosis (in numerischen Spalten) – Die Kurtosis nach Pearson gibt an, wie schwer das Ende der Verteilung ist. Sie ist definiert als der vierte Moment der Verteilung geteilt durch das Quadrat des zweiten Moments. Die Kurtosis der Normalverteilung ist 3. Kurtosis-Werte unter 3 bedeuten, dass sich die Verteilung um den Mittelwert herum konzentriert und die Randbereiche schwächer sind als die Randbereiche der Normalverteilung. Kurtosis-Werte über 3 deuten auf stärkere Randbereiche oder Ausreißer hin.

  • Fehlende Werte – Nullähnliche Objekte, leere Zeichenketten und Zeichenketten, die nur aus Leerzeichen bestehen, werden als fehlend betrachtet.

  • Gültige Werte für numerische Features oder Regressionsziele – Alle Werte, die Sie in endliche Gleitkommazahlen umwandeln können, sind gültig. Fehlende Werte sind nicht gültig.

  • Gültige Werte für kategorische, binäre oder Textmerkmale oder für Klassifizierungsziele – Alle Werte, die nicht fehlen, sind gültig.

  • DateTime-Funktionen – Alle Werte, die Sie in ein DateTime-Objekt umwandeln können, sind gültig. Fehlende Werte sind nicht gültig.

  • Ungültige Werte – Werte, die entweder fehlen oder die Sie nicht richtig umwandeln können. In einer numerischen Spalte können Sie beispielsweise die Zeichenfolge "six" oder einen Nullwert nicht umwandeln.

Quick model metrics for regression

Im Folgenden finden Sie die Definitionen für die Quick-Modellmetriken:

  • R2 (oder Bestimmtheitskoeffizient) – R2 ist der Anteil der Variation im Zielwert, der vom Modell vorausgesagt wird. R2 liegt im Bereich von [-infty, 1]. 1 ist der Wert des Modells, das den Sollwert perfekt voraussagt, und 0 ist der Wert des trivialen Modells, das immer den Zielmittelwert voraussagt.

  • MSE oder mittlerer quadratischer Fehler – MSE liegt im Bereich [0, infty]. 0 ist der Wert des Modells, das das Ziel perfekt voraussagt.

  • MAE oder mittlerer absoluter Fehler – MAE liegt im Bereich [0, infty], wobei 0 der Wert des Modells ist, das das Ziel perfekt voraussagt.

  • RMSE oder Root Mean Square Error, die Standardabweichung – MSE liegt im Bereich [0, infty]. 0 ist der Wert des Modells, das das Ziel perfekt voraussagt.

  • Maximaler Fehler – Der maximale Absolutwert des Fehlers im Datensatz. Der maximale Fehler liegt im Bereich [0, infty]. 0 ist der Wert des Modells, das das Ziel perfekt voraussagt.

  • Mittlerer absoluter Fehler – Der mittlere absolute Fehler liegt im Bereich [0, infty], wobei 0 der Wert des Modells ist, das das Ziel perfekt voraussagt.

Quick model metrics for classification

Im Folgenden finden Sie die Definitionen für die Quick-Modellmetriken:

  • Genauigkeit – Genauigkeit ist das Verhältnis der Stichproben, die genau vorausgesagt wurden. Die Genauigkeit liegt im Bereich [0, 1]. 0 ist der Wert des Modells, das alle Stichproben falsch voraussagt, und 1 ist der Wert des perfekten Modells.

  • Ausgewogene Genauigkeit – Ausgewogene Genauigkeit ist das Verhältnis der Stichproben, die genau vorausgesagt werden, wenn die Klassengewichtungen angepasst werden, um die Daten auszugleichen. Allen Klassen wird unabhängig von ihrer Häufigkeit die gleiche Bedeutung beigemessen. Die ausgewogene Genauigkeit liegt im Bereich [0, 1]. 0 ist der Wert des Modells, das alle Stichproben falsch voraussagt, und 1 ist der Wert des perfekten Modells.

  • AUC (binäre Klassifikation) – Dies ist der Bereich unter der Betriebskennlinie des Empfängers. AUC liegt im Bereich [0, 1], in dem ein Zufallsmodell einen Wert von 0,5 und das perfekte Modell einen Wert von 1 zurückgibt.

  • AUC (OVR) – Bei der Mehrklassen-Klassifizierung ist dies der Bereich unter der Betriebskennlinie des Empfängers, der für jede Beschriftung separat berechnet wird, wobei eins im Vergleich zum Rest verwendet wird. Data Wrangler gibt den Durchschnitt der Flächen an. AUC liegt im Bereich [0, 1], in dem ein Zufallsmodell einen Wert von 0,5 und das perfekte Modell einen Wert von 1 zurückgibt.

  • Präzision – Die Präzision ist für eine bestimmte Klasse definiert. Präzision ist der Anteil der wirklich positiven Ergebnisse aller Instances, die das Modell als diese Klasse klassifiziert hat. Die Präzision liegt im Bereich [0, 1]. 1 ist der Wert des Modells, das keine falsch positiven Ergebnisse für die Klasse aufweist. Für die binäre Klassifikation gibt Data Wrangler die Präzision der positiven Klasse an.

  • Erinnerungswert – Der Erinnerungswert ist für eine bestimmte Klasse definiert. Der Erinnerungswert ist der Bruchteil der relevanten Klassen-Instances, die erfolgreich abgerufen wurden. Erinnerungswert liegt im Bereich [0, 1]. 1 ist der Wert des Modells, das alle Instances der Klasse korrekt klassifiziert. Für die binäre Klassifikation gibt Data Wrangler den Erinnerungswert der positiven Klasse an.

  • F1 – F1 ist für eine bestimmte Klasse definiert. Sie ist das harmonische Mittel zwischen Präzision und Erinnerungswert. F1 liegt im Bereich [0, 1]. 1 ist der Wert des perfekten Modells. Für die binäre Klassifikation gibt Data Wrangler den F1-Wert für Klassen mit positiven Werten an.

Textual patterns

Muster beschreiben das Textformat einer Zeichenfolge in einem leicht lesbaren Format. Es folgen Beispiele für Textmuster:

  • {digits:4-7}“ beschreibt eine Folge von Ziffern mit einer Länge zwischen 4 und 7.

  • {alnum:5}“ beschreibt eine alphanumerische Zeichenfolge mit einer Länge von genau 5.

Data Wrangler leitet die Muster ab, indem es Stichproben von nicht leeren Zeichenketten aus Ihren Daten betrachtet. Es kann viele der häufig verwendeten Muster beschreiben. Das als Prozentsatz ausgedrückte Vertrauen gibt an, wie viele der Daten schätzungsweise mit dem Muster übereinstimmen. Anhand des Textmusters können Sie erkennen, welche Zeilen in Ihren Daten Sie korrigieren oder löschen müssen.

Im Folgenden werden die Muster beschrieben, die Data Wrangler erkennen kann:

Muster Textformat

{alnum}

Alphanumerische Zeichenfolge

{any}

Beliebige Zeichenfolge aus Wörtern

{digits}

Eine Ziffernfolge

{lower}

Ein kleingeschriebenes Wort

{mixed}

Ein Wort mit gemischter Groß- und Kleinschreibung

{name}

Ein Wort, das mit einem Großbuchstaben beginnt

{upper}

Ein Wort in Großbuchstaben

{whitespace}

Whitespace-Zeichen

Ein Wortzeichen ist entweder ein Unterstrich oder ein Zeichen, das in einem Wort in einer beliebigen Sprache vorkommen kann. Beispielsweise bestehen die Zeichenfolgen „Hello_word“ und „écoute“ beide aus Wortzeichen. „H“ und „é“ sind beide Beispiele für Wortzeichen.