Verwenden Sie ein interaktives Datenvorbereitungs-Widget in einem Amazon SageMaker Studio Classic-Notizbuch, um Dateneinblicke zu erhalten - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden Sie ein interaktives Datenvorbereitungs-Widget in einem Amazon SageMaker Studio Classic-Notizbuch, um Dateneinblicke zu erhalten

Verwenden Sie das Datenkrämer-Widget zur Datenvorbereitung, um mit Ihren Daten zu interagieren, Visualisierungen zu erhalten, umsetzbare Erkenntnisse zu gewinnen und Probleme mit der Datenqualität zu beheben.

Sie können von einem Amazon SageMaker Studio Classic-Notizbuch aus auf das Datenvorbereitungs-Widget zugreifen. Für jede Spalte erstellt das Widget eine Visualisierung, die Ihnen hilft, ihre Verteilung besser zu verstehen. Wenn in einer Spalte Probleme mit der Datenqualität auftreten, wird in der Kopfzeile eine Warnung angezeigt.

Um die Datenqualitätsprobleme zu sehen, wählen Sie die Spaltenüberschrift mit der Warnung aus. Sie können die Informationen, die Sie aus den Erkenntnissen und den Visualisierungen erhalten, verwenden, um die integrierten Transformationen des Widgets anzuwenden, um die Probleme zu beheben.

Das Widget kann beispielsweise erkennen, dass Sie eine Spalte haben, die nur einen eindeutigen Wert hat, und Ihnen eine Warnung anzeigen. Die Warnung bietet die Möglichkeit, die Spalte aus dem Datensatz zu löschen.

Erste Schritte mit dem Ausführen des Widgets

Die folgenden Informationen helfen Ihnen bei den ersten Schritten mit dem Betrieb eines Notebooks.

Öffnen Sie ein Notizbuch in Amazon SageMaker Studio Classic. Weitere Informationen zum Öffnen eines Notebooks finden Sie unter Erstellen oder öffnen Sie ein Amazon SageMaker Studio Classic-Notizbuch.

Wichtig

Um das Widget auszuführen, muss das Notebook eines der folgenden Bilder verwenden:

  • Python 3 (Datenwissenschaft) mit Python 3.7

  • Python 3 (Datenwissenschaft 2.0) mit Python 3.8

  • Python 3 (Datenwissenschaft 3.0) mit Python 3.10

  • SparkAnalytics 1.0

  • SparkAnalytics 2,0

Weitere Informationen über Images finden Sie unter SageMaker Amazon-Bilder sind für die Verwendung mit Studio Classic verfügbar.

Verwenden Sie den folgenden Code, um das Datenvorbereitungs-Widget und die Pandas zu importieren. Das Widget verwendet Pandas-Datenrahmen, um Ihre Daten zu analysieren.

import pandas as pd import sagemaker_datawrangler

Der folgende Beispielcode lädt eine Datei in den aufgerufenen Datenrahmen df.

df = pd.read_csv("example-dataset.csv")

Sie können einen Datensatz in einem beliebigen Format verwenden, das Sie als Pandas-DataFrame-Objekt laden können. Weitere Informationen zu Pandas-Formaten finden Sie unter IO-Tools (Text, CSV, HDF5,...).

In der folgenden Zelle wird die df Variable ausgeführt, um das Widget zu starten.

df

Der obere Teil des Datenrahmens hat die folgenden Optionen:

  • Die Pandas-Tabelle anzeigen – Wechselt zwischen der interaktiven Visualisierung und einer Pandas-Tabelle.

  • Verwenden Sie alle Zeilen in Ihrem Datensatz, um die Erkenntnisse zu berechnen. Die Verwendung des gesamten Datensatzes kann die Zeit erhöhen, die für die Generierung der Erkenntnisse benötigt wird. – Wenn Sie die Option nicht auswählen, berechnet Data Wrangler die Erkenntnisse für die ersten 10.000 Zeilen des Datensatzes.

Der Datenrahmen zeigt die ersten 1000 Zeilen des Datensatzes. Jede Spaltenüberschrift hat ein gestapeltes Balkendiagramm, das die Eigenschaften der Spalte zeigt. Es zeigt den Anteil gültiger Werte, ungültiger Werte und fehlender Werte. Sie können den Mauszeiger über die verschiedenen Bereiche des gestapelten Balkendiagramms bewegen, um die berechneten Prozentsätze abzurufen.

Jede Spalte hat eine Visualisierung in der Kopfzeile. Im Folgenden wird gezeigt, welche Arten von Visualisierungen die Spalten haben können:

  • Kategorisch – Balkendiagramm

  • Numerisch – Histogramm

  • Datetime – Balkendiagramm

  • Text – Balkendiagramm

Für jede Visualisierung hebt das Datenaufbereitungs-Widget Ausreißer orange hervor.

Wenn Sie eine Spalte auswählen, wird ein Seitenbereich geöffnet. In der Seitenleiste wird der Tab Einblicke angezeigt. In diesem Bereich wird die Anzahl der folgenden Wertetypen angezeigt:

  • Ungültige Werte – Werte, deren Typ nicht mit dem Spaltentyp übereinstimmt.

  • Fehlende Werte – Werte, die fehlen, z. B. NaN oder None.

  • Gültige Werte – Werte, die weder fehlen noch ungültig sind.

Für numerische Spalten werden auf der Registerkarte Einblicke die folgenden zusammenfassenden Statistiken angezeigt:

  • Minimum – Der kleinste Wert.

  • Maximum – Der größte Wert.

  • Mittelwert – Der Mittelwert der Werte.

  • Modus – Der Wert, der am häufigsten vorkommt.

  • Standardabweichung – Die Standardabweichung der Werte.

Für kategoriale Spalten zeigt der Tab Einblicke die folgenden zusammenfassenden Statistiken:

  • Einzelwerte – Die Anzahl der Einzelwerte in der Spalte.

  • Top – Der Wert, der am häufigsten vorkommt.

Bei den Spalten mit Warnsymbolen in der Kopfzeile treten Probleme mit der Datenqualität auf. Wenn Sie eine Spalte auswählen, wird eine Registerkarte Datenqualität geöffnet, auf der Sie nach Transformationen suchen können, um das Problem zu beheben. Eine Warnung hat einen der folgenden Schweregrade:

  • Niedrig – Probleme, die sich möglicherweise nicht auf Ihre Analyse auswirken, deren Behebung jedoch nützlich sein kann.

  • Mittel – Probleme, die sich wahrscheinlich auf Ihre Analyse auswirken, deren Behebung jedoch wahrscheinlich nicht unbedingt erforderlich ist.

  • Hoch – Schwerwiegende Probleme, deren Behebung wir dringend empfehlen.

Anmerkung

Das Widget sortiert die Spalte so, dass die Werte mit Datenqualitätsproblemen oben im Datenrahmen angezeigt werden. Es hebt auch die Werte hervor, die die Probleme verursachen. Die Farbe der Markierung entspricht dem Schweregrad.

Unter VORGESCHLAGENE TRANSFORMATIONEN können Sie eine Transformation auswählen, um das Datenqualitätsproblem zu beheben. Das Widget kann mehrere Transformationen anbieten, mit denen das Problem behoben werden kann. Es kann Empfehlungen für die Transformationen geben, die für das Problem am besten geeignet sind. Sie können den Mauszeiger über die Transformation bewegen, um weitere Informationen dazu zu erhalten.

Um eine Transformation auf den Datensatz anzuwenden, wählen Sie Anwenden und Code exportieren. Die Transformation ändert den Datensatz und aktualisiert die Visualisierung mit geänderten Werten. Der Code für die Transformation wird in der folgenden Zelle des Notebooks angezeigt. Wenn Sie zusätzliche Transformationen auf den Datensatz anwenden, hängt das Widget die Transformationen an die Zelle an. Sie können im Code, den das Widget generiert, wie folgt verfahren:

  • Passen Sie es an Ihre Bedürfnisse an.

  • Verwenden Sie es in Ihren eigenen Workflows.

Sie können alle Transformationen, die Sie vorgenommen haben, reproduzieren, indem Sie alle Zellen im Notebooks erneut ausführen.

Das Widget kann Einblicke und Warnungen für die Zielspalte bereitstellen. Die Zielspalte ist die Spalte, die Sie vorhersagen möchten. Gehen Sie wie folgt vor, um Einblicke in die Zielspalte zu erhalten.

Gehen Sie wie folgt vor, um Einblicke in die Zielspalte zu erhalten.

  1. Wählen Sie die Spalte aus, die Sie als Zielspalte verwenden.

  2. Wählen Sie Als Zielspalte auswählen aus.

  3. Wählen Sie den Problemtyp aus. Die Erkenntnisse und Warnungen des Widgets sind auf die Problemtypen zugeschnitten. Im Folgenden sind die Problemtypen aufgeführt:

    • Klassifizierung – Die Zielspalte enthält kategoriale Daten.

    • Regression – Die Zielspalte enthält numerische Daten.

  4. Wählen Sie Ausführen aus.

  5. (Optional) Wählen Sie unter Zielspalte-Erkenntnisse eine der vorgeschlagenen Transformationen aus.

Referenz für die Erkenntnisse und Transformationen im Widget

Für Feature-Spalten (Spalten, die nicht die Zielspalte sind) können Sie die folgenden Informationen abrufen, um Sie vor Problemen mit Ihrem Datensatz zu warnen.

  • Fehlende Werte – In der Spalte fehlen Werte wie None, NaN (keine Zahl) oder NaT (kein Zeitstempel). Viele Algorithmen für Machine Learning unterstützen fehlende Werte in den Eingabedaten nicht. Das Ausfüllen oder Löschen der Zeilen mit fehlenden Daten ist daher ein entscheidender Schritt zur Datenvorbereitung. Wenn die Warnung über fehlende Werte angezeigt wird, können Sie eine der folgenden Transformationen verwenden, um das Problem zu beheben.

    • Fehlend löschen – Löscht Zeilen mit fehlenden Werten. Wir empfehlen, Zeilen zu löschen, wenn der Prozentsatz der Zeilen mit fehlenden Daten gering ist und es nicht angemessen ist, die fehlenden Werte zu implizieren.

    • Durch neuen Wert ersetzen – Ersetzt fehlende Textwerte durch Other. Sie können Other im Ausgabecode zu einem anderen Wert wechseln. Ersetzt fehlende numerische Werte durch 0.

    • Durch Mittelwert ersetzen – Ersetzt fehlende Werte durch den Mittelwert der Spalte.

    • Durch Median ersetzen – Ersetzt fehlende Werte durch den Median der Spalte.

    • Spalte löschen – Löscht die Spalte mit fehlenden Werten aus dem Datensatz. Wir empfehlen, die gesamte Spalte zu löschen, wenn es einen hohen Prozentsatz an Zeilen mit fehlenden Daten gibt.

  • Getarnte fehlende Werte – Die Spalte enthält getarnte fehlende Werte. Ein getarnter fehlender Wert ist ein Wert, der nicht explizit als fehlender Wert codiert ist. Anstatt ein NaN zu verwenden, um auf einen fehlenden Wert hinzuweisen, könnte der Wert beispielsweise Placeholder sein. Sie können eine der folgenden Transformationen verwenden, um die fehlenden Werte zu behandeln:

    • Fehlend löschen – Löscht Zeilen mit fehlenden Werten

    • Durch neuen Wert ersetzen – Ersetzt fehlende Textwerte durch Other. Sie können Other im Ausgabecode zu einem anderen Wert wechseln. Ersetzt fehlende numerische Werte durch 0.

  • Konstante Spalte – Die Spalte hat nur einen Wert. Sie hat daher keine Vorhersagekraft. Es wird dringend empfohlen, die Transformation Spalte löschen zu verwenden, um die Spalte aus dem Datensatz zu löschen.

  • ID-Spalte – Die Spalte enthält keine sich wiederholenden Werte. Alle Werte in der Spalte sind eindeutig. Sie können entweder IDs oder Datenbankschlüssel sein. Ohne zusätzliche Informationen hat die Spalte keine Aussagekraft. Es wird dringend empfohlen, die Transformation Spalte löschen zu verwenden, um die Spalte aus dem Datensatz zu löschen.

  • Hohe Kardinalität – Die Spalte hat einen hohen Prozentsatz an Einzelwerten. Eine hohe Kardinalität schränkt die Vorhersagekraft von kategorialen Spalten ein. Untersuchen Sie die Bedeutung der Spalte in Ihrer Analyse und ziehen Sie in Betracht, die Transformation Spalte löschen zu verwenden, um sie zu löschen.

Für die Zielspalte können Sie die folgenden Erkenntnisse abrufen, um Sie vor Problemen mit Ihrem Datensatz zu warnen. Sie können die vorgeschlagene Transformation verwenden, die zusammen mit der Warnung bereitgestellt wird, um das Problem zu beheben.

  • Gemischte Datentypen im Ziel (Regression) – Die Zielspalte enthält einige nicht numerische Werte. Möglicherweise liegen Fehler bei der Dateneingabe vor. Wir empfehlen, die Zeilen zu entfernen, deren Werte nicht konvertiert werden können.

  • Häufige Beschriftung – Bestimmte Werte in der Zielspalte werden häufiger angezeigt, als dies im Rahmen einer Regression normal wäre. Möglicherweise liegt ein Fehler bei der Datenerfassung oder -verarbeitung vor. Eine häufig vorkommende Kategorie kann darauf hinweisen, dass der Wert entweder als Standardwert verwendet wird oder dass es sich um einen Platzhalter für fehlende Werte handelt. Wir empfehlen, die Transformation Durch neuen Wert ersetzen zu verwenden, um die fehlenden Werte durch Other zu ersetzen.

  • Zu wenige Instances pro Klasse – Die Zielspalte enthält Kategorien, die selten vorkommen. Einige Kategorien haben nicht genügend Zeilen, sodass die Zielspalte nützlich sein könnte. Sie können eine der folgenden Methoden verwenden:

    • Seltenes Ziel löschen – Löscht eindeutige Werte mit weniger als zehn Beobachtungen. Löscht beispielsweise den Wert cat, wenn er neunmal in der Spalte erscheint.

    • Seltenes Ziel ersetzen – Ersetzt Kategorien, die selten im Datensatz vorkommen, durch den Wert Other.

  • Klassen sind zu unausgewogen (Klassifikation mit mehreren Klassen) – Der Datensatz enthält Kategorien, die viel häufiger vorkommen als die anderen Kategorien. Das Klassenungleichgewicht kann die Vorhersagegenauigkeit beeinträchtigen. Für möglichst genaue Vorhersagen empfehlen wir, den Datensatz mit Zeilen zu aktualisieren, deren Kategorien derzeit seltener vorkommen.

  • Große Anzahl von Klassen/zu viele Klassen – Die Zielspalte enthält eine große Anzahl von Klassen. Viele Klassen können zu längeren Trainingszeiten oder schlechter Vorhersagequalität führen. Wir empfehlen eine der folgenden Aufgaben:

    • Gruppieren einiger Kategorien in einer eigenen Kategorie. Wenn beispielsweise sechs Kategorien eng miteinander verwandt sind, empfehlen wir, eine einzige Kategorie für sie zu verwenden.

    • Verwenden Sie einen ML-Algorithmus, der mehreren Kategorien standhält.