Transformieren Sie Daten - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Transformieren Sie Daten

Amazon SageMaker Data Wrangler bietet zahlreiche ML-Datentransformationen, um Ihre Daten zu bereinigen, zu transformieren und zu nutzen. Wenn Sie eine Transformation hinzufügen, fügt sie dem Datenfluss einen Schritt hinzu. Jede Transformation, die Sie hinzufügen, ändert Ihren Datensatz und erzeugt einen neuen Datenrahmen. Alle nachfolgenden Transformationen gelten für den resultierenden Datenrahmen.

Data Wrangler enthält integrierte Transformationen, mit denen Sie Spalten ohne Code transformieren können. Sie können auch benutzerdefinierte Transformationen mit PySpark, Python (Benutzerdefinierte Funktion), Pandas und hinzufügen PySpark SQL (SQL) Einige Transformationen funktionieren an Ort und Stelle, während andere eine neue Ausgabespalte in Ihrem Datensatz erstellen.

Sie können Transformationen auf mehrere Spalten gleichzeitig anwenden. Sie können beispielsweise mehrere Spalten in einem einzigen Schritt löschen.

Sie können den Prozess numerisch anwenden und fehlende Transformationen nur auf eine einzelne Spalte behandeln.

Verwenden Sie diese Seite, um mehr über diese integrierten und benutzerdefinierten Transformationen zu erfahren.

Transformationsschnittstelle

Die meisten integrierten Transformationen befinden sich imVorbereitungder Daten-Wrangler-Benutzeroberfläche. Auf die Transformationen „Verbinden“ und „Verketten“ wird über die Datenflussansicht zugegriffen. Verwenden Sie die folgende Tabelle, um eine Vorschau dieser beiden Ansichten anzuzeigen.

Transform

So greifen Sie auf Transformationen aufVorbereitung, wählen+neben einem Schritt in Ihrem Datenfluss und wählen SieHinzufügen von Transformationaus.

Auf derVorbereitungfügen Sie Schritte hinzu unterAddaus.

Sie können dasVorherige Schrittezum Anzeigen und Entfernen von hinzugefügten Transformationen in sequentieller Reihenfolge.

Join View

Um zwei Datensätze zu verbinden, wählen Sie den ersten Datensatz in Ihrem Datenfluss aus und wählenBeitretenaus. Wenn Sie wählenBeitretenSie sehen ähnliche Ergebnisse wie in der folgenden Abbildung. Ihr linker und rechter Datensatz werden im linken Bereich angezeigt. Im Hauptbereich wird Ihr Datenfluss angezeigt, wobei der neu verknüpfte Datensatz hinzugefügt wurde.

Wenn Sie wählenKonfigurationUm Ihren Join zu konfigurieren, sehen Sie ähnliche Ergebnisse wie in der folgenden Abbildung. Ihre Join-Konfiguration wird im linken Bereich angezeigt. Sie können dieses Fenster verwenden, um den Namen des verknüpften Datasets, den Join-Typ und die Spalten zu wählen, die verbunden werden sollen. Im Hauptbereich werden drei Tabellen angezeigt. In den beiden oberen Tabellen werden die Datasets Links und Rechts links bzw. rechts angezeigt. Unter dieser Tabelle können Sie eine Vorschau des verbundenen Datasets anzeigen.

Siehe .Beitreten von Datensätzen, um weitere Informationen zu erhalten.

Concatenate View

Um zwei Datensätze zu verketten, wählen Sie den ersten Datensatz in Ihrem Datenfluss aus und wählenVerkettenaus. Wenn Sie auswählenVerkettenSie sehen ähnliche Ergebnisse wie in der folgenden Abbildung. Ihr linker und rechter Datensatz werden im linken Bereich angezeigt. Im Hauptbereich wird Ihr Datenfluss angezeigt, wobei der neu verkettete Datensatz hinzugefügt wurde.

Wenn Sie wählenKonfigurationSie konfigurieren Ihre Verkettung, sehen Sie Ergebnisse, die denen in der folgenden Abbildung gezeigt sind. Ihre Verkettungskonfiguration wird im linken Bereich angezeigt. Sie können dieses Fenster verwenden, um den Namen des verketteten Datasets auszuwählen und Duplikate nach der Verkettung zu entfernen und Spalten hinzuzufügen, um den Quelldatenrahmen anzugeben. Im Hauptbereich werden drei Tabellen angezeigt. In den beiden oberen Tabellen werden die Datasets Links und Rechts links bzw. rechts angezeigt. Unter dieser Tabelle können Sie eine Vorschau des verketteten Datensatzes anzeigen.

Siehe .Verketten von Datensätzen, um weitere Informationen zu erhalten.

Beitreten von Datensätzen

Sie schließen Datenrahmen direkt in Ihrem Datenfluss an. Wenn Sie zwei Datensätze verbinden, wird das resultierende verknüpfte Dataset in Ihrem Flow angezeigt. Die folgenden Join-Typen werden von Data Wrangler unterstützt.

  • Linker Außen— Schließt alle Zeilen aus der linken Tabelle ein. Wenn der Wert für die Spalte, die in einer linken Tabellenzeile verbunden ist, keinen rechten Tabellenzeilenwerten entspricht, enthält diese Zeile Nullwerte für alle rechten Tabellenspalten in der verknüpften Tabelle.

  • Linker Anti— Fügen Sie Zeilen aus der linken Tabelle ein, die keine Werte in der rechten Tabelle für die verbundene Spalte enthalten.

  • Linker Semi— Fügen Sie eine einzelne Zeile aus der linken Tabelle für alle identischen Zeilen ein, die die Kriterien in der Join-Anweisung erfüllen. Dies schließt doppelte Zeilen aus der linken Tabelle aus, die den Kriterien des Joins entsprechen.

  • Rechts ÄUSSERE— Schließt alle Zeilen aus der rechten Tabelle ein. Wenn der Wert für die verbundene Spalte in einer rechten Tabellenzeile mit keinen Zeilenwerten der linken Tabelle übereinstimmt, enthält diese Zeile Nullwerte für alle linken Tabellenspalten in der verknüpften Tabelle.

  • INNER— Fügen Sie Zeilen aus der linken und rechten Tabelle ein, die übereinstimmende Werte in die verbundene Spalte enthalten.

  • Vollständige äußere— Schließt alle Zeilen aus der linken und rechten Tabelle ein. Wenn der Zeilenwert für die verbundene Spalte in einer Tabelle nicht übereinstimmt, werden separate Zeilen in der verknüpften Tabelle erstellt. Wenn eine Zeile keinen Wert für eine Spalte in der verbundenen Tabelle enthält, wird für diese Spalte null eingefügt.

  • Kartesisches Kreuz— Fügen Sie Zeilen ein, die jede Zeile aus der ersten Tabelle mit jeder Zeile aus der zweiten Tabelle kombinieren. Das ist einKartesisches Produktvon Zeilen aus Tabellen im Join. Das Ergebnis dieses Produkts ist die Größe des linken Tisches mal der Größe der rechten Tabelle. Daher empfehlen wir Vorsicht bei der Verwendung dieses Joins zwischen sehr großen Datensätzen.

Gehen Sie wie folgt vor, um zwei Datenrahmen zu verknüpfen.

  1. Select+neben dem linken Datenrahmen, dem Sie beitreten möchten. Der erste Datenrahmen, den Sie auswählen, ist immer die linke Tabelle in Ihrem Join.

  2. Join (Beitreten) auswählen.

  3. Wählen Sie den richtigen Datenrahmen aus. Der zweite Datenrahmen, den Sie auswählen, ist immer die richtige Tabelle in Ihrem Join.

  4. Klicken Sie aufKonfigurationum Ihren Join zu konfigurieren.

  5. Geben Sie Ihrem beigefügten Datensatz einen Namen mitNamefield.

  6. Wählen Sie einJOIN-Typaus.

  7. Wählen Sie eine Spalte aus der linken und rechten Tabelle aus, die Sie beitreten möchten.

  8. Klicken Sie aufAnwendenum eine Vorschau des verbundenen Datensatzes auf der rechten Seite anzuzeigen.

  9. Um die verbundene Tabelle Ihrem Datenfluss hinzuzufügen, wählen SieAddaus.

Verketten von Datensätzen

Verketten Sie zwei Datensätze:

  1. Klicken Sie auf+Neben dem linken Datenrahmen, den Sie verketten möchten. Der erste Datenrahmen, den Sie auswählen, ist immer die linke Tabelle in Ihrer Verkettung.

  2. Klicken Sie aufVerkettenaus.

  3. Wählen Sie den richtigen Datenrahmen aus. Der zweite Datenrahmen, den Sie auswählen, ist immer die richtige Tabelle in Ihrer Verkettung.

  4. Klicken Sie aufKonfigurationum Ihre Verkettung zu konfigurieren.

  5. Geben Sie Ihrem verketteten Datensatz einen Namen mitNamefield.

  6. (Optional) Aktivieren Sie das Kontrollkästchen nebenEntfernen Sie Duplikate nach Verkettungum doppelte Spalten zu entfernen.

  7. (Optional) Aktivieren Sie das Kontrollkästchen nebenSpalte hinzufügen, um den Quelldatenrahmen anzugebenwenn Sie für jede Spalte im neuen Datensatz einen Indikator für die Quelle der Spalte hinzufügen möchten.

  8. Klicken Sie aufAnwendenum eine Vorschau des neuen Datensatzes anzuzeigen.

  9. Klicken Sie aufAddum den neuen Datensatz Ihrem Datenfluss hinzuzufügen.

Balance -Daten

Sie können die Daten für Datensätze mit einer unterrepräsentierten Kategorie ausgleichen. Der Ausgleich eines Datensatzes kann Ihnen helfen, bessere Modelle für die binäre Klassifizierung zu erstellen.

Anmerkung

Sie können Datensätze, die Spaltenvektoren enthalten, nicht ausgleichen.

Sie können dasBalance -DatenOperation, um Ihre Daten mit einem der folgenden Operatoren auszugleichen:

  • Zufälliges Oversampling— Dupliziert zufällig Stichproben in der Minderheitenkategorie. Wenn Sie beispielsweise versuchen, Betrug zu erkennen, haben Sie möglicherweise nur Betrugsfälle in 10% Ihrer Daten. Für einen gleichen Teil der betrügerischen und nicht betrügerischen Fälle dupliziert dieser Betreiber 8 Mal nach dem Zufallsprinzip Betrugsfälle innerhalb des Datensatzes.

  • Zufälliges Undersampling— Ungefähr gleichwertig mit zufälligem Oversampling. Entfernt nach dem Zufallsprinzip Samples aus der überrepräsentierten Kategorie, um den Anteil der gewünschten Proben zu erhalten.

  • Synthetische Minderheiten-Oversampling-Technik (SMOTE)— Verwendet Proben aus der unterrepräsentierten Kategorie, um neue synthetische Minderheitenproben zu interpolieren. Weitere Informationen zu SMOTE finden Sie in der folgenden Beschreibung.

Sie können alle Transformationen für Datasets verwenden, die sowohl numerische als auch nicht numerische Features enthalten. SMOTE interpoliert Werte unter Verwendung benachbarter Stichproben. Data Wrangler verwendet die R-Quadrat-Distanz, um die Nachbarschaft zu bestimmen, um die zusätzlichen Stichproben zu interpolieren. Data Wrangler verwendet nur numerische Features, um die Abstände zwischen Stichproben in der unterrepräsentierten Gruppe zu berechnen.

Für zwei reale Stichproben in der unterrepräsentierten Gruppe interpoliert Data Wrangler die numerischen Merkmale unter Verwendung eines gewichteten Durchschnitts. Es weist diesen Proben nach dem Zufallsprinzip Gewichte im Bereich von [0, 1] zu. Bei numerischen Features interpoliert Data Wrangler Proben unter Verwendung eines gewichteten Durchschnitts der Proben. Für die Proben A und B könnte Data Wrangler zufällig ein Gewicht von 0,7 bis A und 0,3 bis B zuweisen. Die interpolierte Probe hat einen Wert von 0,7 A + 0,3 B.

Data Wrangler interpoliert nicht numerische Features, indem es aus einem der interpolierten realen Stichproben kopiert. Es kopiert die Stichproben mit der Wahrscheinlichkeit, dass sie jeder Stichprobe zufällig zuweist. Für die Stichproben A und B kann es die Wahrscheinlichkeiten 0,8 bis A und 0,2 bis B zuweisen. Für die zugewiesenen Wahrscheinlichkeiten kopiert es 80% der Zeit.

Benutzerdefinierte Transformationen

DieBenutzerdefinierte Transformationengroup ermöglicht es Ihnen, Python (Benutzerdefinierte Funktion), Pyspark, Pandas oder Pyspark (SQL) zu verwenden, um benutzerdefinierte Transformationen zu definieren. Für alle drei Optionen verwenden Sie die VariabledfUm auf den Datenrahmen zuzugreifen, auf den Sie die Transformation anwenden möchten. Wenn Sie Python (Benutzerdefinierte Funktion) nicht verwenden, müssen Sie keine Return-Anweisung einschließen. Klicken Sie auf-Vorschauum eine Vorschau des Ergebnisses der benutzerdefinierten Transformation anzuzeigen. Klicken Sie aufAddum die benutzerdefinierte Transformation zu Ihrer Liste vonVorherige Schritteaus.

Sie können die beliebten Bibliotheken mit einemimportAnweisung im benutzerdefinierten Transformationscodeblock wie der folgende:

  • Numpy Version 1.19.0

  • SciKit Learn Version 0.23.2

  • Scipy Version 1.5.4

  • Pandas Version 1.0.3

  • Pyspark Version 3.0.0

Wichtig

Benutzerdefinierte TransformationUnterstützt keine Spalten mit Leerzeichen oder Sonderzeichen im Namen. Es wird empfohlen, Spaltennamen anzugeben, die nur alphanumerische Zeichen und Unterstriche enthalten. Sie können dasRename columnTransform imVerwalten von Spaltentransformieren Sie die Gruppe, um Leerzeichen aus dem Namen einer Spalte zu entfernen. Sie können auch einePandas Benutzerdefinierte Transformationähnlich wie im Folgenden, um Leerzeichen aus mehreren Spalten in einem einzigen Schritt zu entfernen. In diesem Beispiel werden Spalten mit dem Namen geändertA columnundB columnzuA_columnundB_columnauflisten.

df.rename(columns={"A column": "A_column", "B column": "B_column"})

Wenn Sie Druckanweisungen in den Codeblock aufnehmen, wird das Ergebnis angezeigt, wenn Sie-Vorschauaus. Sie können die Größe des benutzerdefinierten Code-Transformator-Panels ändern Die Größenänderung des Panels bietet mehr Platz zum Schreiben von Code. Im Folgenden wird die Größenänderung des Panels dargestellt.


                Ersetzen Sie für die Python-Funktion die Kommentare unter PD.Series durch Ihren Code.

Im Folgenden finden Sie zusätzlichen Kontext und Beispiele zum Schreiben von benutzerdefiniertem Transformationscode.

Python (Benutzerdefinierte Funktion)

Die Python-Funktion gibt Ihnen die Möglichkeit, benutzerdefinierte Transformationen zu schreiben, ohne Apache Spark oder Pandas kennen zu müssen. Data Wrangler ist optimiert, um Ihren benutzerdefinierten Code schnell auszuführen. Sie erhalten eine ähnliche Leistung zwischen der Verwendung von benutzerdefiniertem Python-Code und einem Apache Spark-Plugin.

Um den Codeblock Python (User-Defined Function) zu verwenden, geben Sie Folgendes an:

  • Eingabe-Spalte— Die Eingabespalte, in der Sie die Transformation anwenden.

  • Mode— Der Skriptmodus, entweder Pandas oder Python.

  • Rückgabetyp— Der Datentyp des Werts, den Sie zurückgeben.

Die Verwendung des Pandas-Modus bietet eine bessere Leistung. Der Python-Modus erleichtert Ihnen das Schreiben von Transformationen mit reinen Python-Funktionen.

Das folgende Video zeigt ein Beispiel, wie Sie benutzerdefinierten Code verwenden, um eine Transformation zu erstellen. Es verwendet den Titanic-Dataset, um eine Spalte mit der Anrede der Person zu erstellen.


                Ersetzen Sie für die Python-Funktion die Kommentare unter PD.Series durch Ihren Code.

PySpark

Im folgenden Beispiel werden Datum und Uhrzeit aus einem Zeitstempel extrahiert.

from pyspark.sql.functions import from_unixtime, to_date, date_format df = df.withColumn('DATE_TIME', from_unixtime('TIMESTAMP')) df = df.withColumn( 'EVENT_DATE', to_date('DATE_TIME')).withColumn( 'EVENT_TIME', date_format('DATE_TIME', 'HH:mm:ss'))

Pandas

Das folgende Beispiel bietet einen Überblick über den Datenrahmen, zu dem Sie Transformationen hinzufügen.

df.info()

Pyspark (SQL)

Im Folgenden wird ein neuer Datenrahmen mit fünf Spalten erstellt:Name,Fahrpreis,pclass,überlebteaus.

SELECT name, fare, pclass, survived FROM df

Benutzerdefinierte Formel

Verwenden vonBenutzerdefinierte Formelum eine neue Spalte mit einem Spark SQL-Ausdruck zu definieren, um Daten im aktuellen Datenrahmen abzufragen. Die Abfrage muss die Konventionen von Spark SQL-Ausdrücken verwenden.

Wichtig

Benutzerdefinierte FormelUnterstützt keine Spalten mit Leerzeichen oder Sonderzeichen im Namen. Es wird empfohlen, Spaltennamen anzugeben, die nur alphanumerische Zeichen und Unterstriche enthalten. Sie können dasRename columnTransform imVerwalten von Spaltentransformieren Sie die Gruppe, um Leerzeichen aus dem Namen einer Spalte zu entfernen. Sie können auch einePandas Benutzerdefinierte Transformationähnlich wie im Folgenden, um Leerzeichen aus mehreren Spalten in einem einzigen Schritt zu entfernen. In diesem Beispiel werden Spalten mit dem Namen geändertA columnundB columnzuA_columnundB_columnauflisten.

df.rename(columns={"A column": "A_column", "B column": "B_column"})

Sie können diese Transformation verwenden, um Operationen an Spalten auszuführen und die Spalten nach Namen zu referenzieren. Angenommen, der aktuelle Datenrahmen enthält Spalten mit dem Namencol_aundcol_bverwenden, können Sie den folgenden Vorgang verwenden, um einOutput-Spaltedas ist das Produkt dieser beiden Spalten mit folgendem Code:

col_a * col_b

Andere gängige Operationen umfassen die folgenden, vorausgesetzt, ein Datenrahmen enthältcol_aundcol_bColumn

  • Verketten Sie zwei Spalten:concat(col_a, col_b)

  • Fügen Sie zwei Spalten hinzu:col_a + col_b

  • Subtrahiere zwei Spalten:col_a - col_b

  • Teilen Sie zwei Spalten:col_a / col_b

  • Nimm den absoluten Wert einer Spalte:abs(col_a)

Weitere Informationen finden Sie im .Spark-Dokumentationbei der Auswahl von Daten.

Kodieren Kategorischer Wert

Kategoriale Daten bestehen normalerweise aus einer endlichen Anzahl von Kategorien, wobei jede Kategorie mit einer Zeichenfolge dargestellt wird. Wenn Sie beispielsweise eine Tabelle mit Kundendaten haben, ist eine Spalte, die angibt, in dem eine Person lebt, kategorisch. Die Kategorien wären Afghanistan, Albania, Algeria und so weiter. Kategorische Daten können seinnominaloderORDINALaus. Ordnungskategorien haben eine inhärente Reihenfolge und nominale Kategorien nicht. Der höchste erworbene Abschluss (High School, Bachelor, Master) ist ein Beispiel für ordinale Kategorien.

Die Kodierung kategorialer Daten ist der Prozess, bei dem eine numerische Darstellung für Kategorien erstellt wird. Wenn Ihre Kategorien beispielsweise Hund und Katze sind, können Sie diese Informationen in zwei Vektoren kodieren:[1,0]um Dog darzustellen, und[0,1]zur Darstellung von Cat.

Wenn Sie Ordnungskategorien codieren, müssen Sie möglicherweise die natürliche Reihenfolge der Kategorien in Ihre Kodierung übersetzen. Zum Beispiel können Sie den höchsten Grad darstellen, den Sie mit der folgenden Map erhalten haben:{"High school": 1, "Bachelors": 2, "Masters":3}aus.

Verwenden Sie die kategoriale Kodierung, um kategoriale Daten im String-Format in Arrays von Ganzzahlen zu codieren.

Die kategorialen Data-Wrangler-Encoder erstellen Kodierungen für alle Kategorien, die zum Zeitpunkt der Definition des Schritts in einer Spalte vorhanden sind. Wenn neue Kategorien zu einer Spalte hinzugefügt wurden, wenn Sie einen Data Wrangler-Job starten, um Ihren Datensatz zur Zeit zu verarbeitent, und diese Spalte war damals die Eingabe für eine kategorische Codierungstransformation von Data Wranglert-1, diese neuen Kategorien werden berücksichtigtfehltim Data Wrangler-Job. Die Option, für die Sie auswählenUngültige Handhabungsstrategiewird auf diese fehlenden Werte angewendet. Beispiele dafür, wann dies geschehen kann, sind:

  • Wenn Sie eine Flow-Datei verwenden, um einen Data Wrangler-Job zu erstellen, um ein Dataset zu verarbeiten, das nach der Erstellung des Datenflusses aktualisiert wurde. Sie können beispielsweise einen Datenfluss verwenden, um regelmäßig Verkaufsdaten jeden Monat zu verarbeiten. Wenn diese Verkaufsdaten wöchentlich aktualisiert werden, können neue Kategorien in Spalten eingeführt werden, für die ein kategorialer Kodierungsschritt definiert ist.

  • Wenn Sie auswählenSamplingWenn Sie Ihren Datensatz importieren, werden einige Kategorien möglicherweise nicht im Beispiel gelassen.

In diesen Situationen gelten diese neuen Kategorien als fehlende Werte im Data Wrangler-Job.

Sie können aus einer auswählen und konfigurierenORDINALund einone-hot codierenaus. Die folgenden Abschnitte enthalten weitere Informationen zu diesen Optionen.

Beide Transformationen erstellen eine neue Spalte mit dem NamenAusgabespalennameaus. Sie geben das Ausgabeformat dieser Spalte mitAusgabesstil:

  • SelectVektorum eine einzelne Spalte mit einem spärlichen Vektor zu erzeugen.

  • SelectSpaltenum eine Spalte für jede Kategorie mit einer Indikatorvariablen dafür zu erstellen, ob der Text in der ursprünglichen Spalte einen Wert enthält, der dieser Kategorie entspricht.

Ordinal codieren

SelectOrdinal codierenum Kategorien in eine Ganzzahl zwischen 0 und der Gesamtzahl der Kategorien imEingabe-SpalteSie wählen aus.

Ungültige Übergabungsstrategie: Wählen Sie eine Methode aus, um ungültige oder fehlende Werte zu behandeln.

  • Klicken Sie aufÜbersprungenwenn Sie die Zeilen mit fehlenden Werten weglassen möchten.

  • Klicken Sie aufBehalten Sieum fehlende Werte als letzte Kategorie beizubehalten.

  • Klicken Sie aufFehlerwenn Sie möchten, dass Data Wrangler einen Fehler auslöst, wenn fehlende Werte imEingabe-Spalteaus.

  • Klicken Sie aufErsetzen Sie durch NaNum fehlende durch NaN zu ersetzen. Diese Option wird empfohlen, wenn Ihr ML-Algorithmus mit fehlenden Werten umgehen kann. Andernfalls können die ersten drei Optionen in dieser Liste zu besseren Ergebnissen führen.

One-Hot-Encodieren

SelectEin-Hot-codierenzumTransformationum Ein-Hot-Codierung zu verwenden. Konfigurieren Sie diese Transformation wie folgt:

  • Ablegen der letzten Kategorie: WennTruehat die letzte Kategorie keinen entsprechenden Index in der One-Hot-Codierung. Wenn fehlende Werte möglich sind, ist eine fehlende Kategorie immer die letzte und setzt diese aufTruebedeutet, dass ein fehlender Wert zu einem All-Null-Vektor führt.

  • Ungültige Übergabungsstrategie: Wählen Sie eine Methode aus, um ungültige oder fehlende Werte zu behandeln.

    • Klicken Sie aufÜbersprungenwenn Sie die Zeilen mit fehlenden Werten weglassen möchten.

    • Klicken Sie aufBehalten Sieum fehlende Werte als letzte Kategorie beizubehalten.

    • Klicken Sie aufFehlerwenn Sie möchten, dass Data Wrangler einen Fehler auslöst, wenn fehlende Werte imEingabe-Spalteaus.

  • Ist Input Ordinalcodiert: Wählen Sie diese Option aus, wenn der Eingabevektor ordinalcodierte Daten enthält. Diese Option setzt voraus, dass Eingabedaten nicht negative Ganzzahlen enthalten. WennWahr, eingangichist als Vektor mit einem ungleich Null imichth-Lage.

Kodieren der Ähnlichkeit

Verwenden Sie die Ähnlichkeitskodierung, wenn Sie Folgendes haben:

  • Eine große Anzahl von kategorialen Variablen

  • Laute Daten

Der Ähnlichkeitsgeber erstellt Einbettungen für Spalten mit kategorialen Daten. Eine Einbettung ist eine Zuordnung von diskreten Objekten, wie Wörtern, zu Vektoren reeller Zahlen. Es kodiert ähnliche Zeichenfolgen wie Vektoren, die ähnliche Werte enthalten. Zum Beispiel erstellt es sehr ähnliche Kodierungen für „Kalifornien“ und „Calfornia“.

Data Wrangler wandelt jede Kategorie in Ihrem Datensatz mit einem 3-Gramm-Tokenizer in eine Reihe von Token um. Es wandelt die Token mithilfe von Min-Hash-Codierung in eine Einbettung um.

Im folgenden Beispiel wird gezeigt, wie der Ähnlichkeitsgeber Vektoren aus Strings erstellt.

Die Ähnlichkeitscodierungen, die Data Wrangler erstellt:

  • Haben eine geringe Dimensionalität

  • Sind auf eine große Anzahl von Kategorien skalierbar

  • Sind robust und geräuschresistent

Aus den vorhergehenden Gründen ist die Ähnlichkeitscodierung vielseitiger als die One-Hot-Codierung.

Sie fügen die Transformation zur Ähnlichkeitscodierung Ihrem Datensatz hinzu, indem Sie die folgenden Schritte durchführen.

Gehen Sie wie folgt vor, um die Ähnlichkeitscodierung zu verwenden.

  1. Melden Sie sich bei derAmazon SageMaker SageMaker-Konsoleaus.

  2. Wählen Sie Open Studio (Studio öffnen).

  3. Klicken Sie aufApp startenaus.

  4. Klicken Sie aufStudioaus.

  5. Geben Sie Ihren Datenfluss an.

  6. Wählen Sie einen Schritt mit einer Transformation aus.

  7. Klicken Sie aufHinzufügen von Schrittaus.

  8. Klicken Sie aufKodieren Sie kategorischaus.

  9. Geben Sie Folgendes an:

    • TransformationKodieren der Ähnlichkeit

    • Eingabe-Spalte— Die Spalte mit den kategorialen Daten, die Sie codieren.

    • Ziel-Dimension— (Optional) Die Dimension des kategorischen Einbettungsvektors. Der Standardwert lautet 30. Wir empfehlen, eine größere Zieldimension zu verwenden, wenn Sie einen großen Datensatz mit vielen Kategorien haben.

    • Ausgabesstil— Wählen SieVektorfür einen einzelnen Vektor mit allen kodierten Werten. Klicken Sie aufSpalteum die kodierten Werte in separaten Spalten zu haben.

    • Output-Spalte— (Optional) Der Name der Ausgabespalte für eine vektorcodierte Ausgabe. Für eine spaltencodierte Ausgabe das Präfix der Spaltennamen gefolgt von der aufgelisteten Nummer.

Featurize Text

Verwenden derMerkmalstexttransformieren Sie die Gruppe, um Zeichenfolgen-typisierte Spalten zu untersuchen, und verwenden Sie die Text-Einbettung, um diese Spalten zu verwenden.

Diese Featuregruppe enthält zwei Funktionen:CharakterstatistikundVektorisierenaus. Die folgenden Abschnitte enthalten weitere Informationen zu diesen Transformationen. Für beide Optionen ist derEingabe-Spaltemuss Textdaten enthalten (String-Typ).

Charakterstatistik

Verwenden vonCharakterstatistikum Statistiken für jede Zeile in einer Spalte mit Textdaten zu generieren.

Dies transformiert die folgenden Verhältnisse und Zählungen für jede Zeile und erstellt eine neue Spalte, um das Ergebnis zu melden. Die neue Spalte wird unter Verwendung des Eingabespaltennamens als Präfix und einem Suffix benannt, das für das Verhältnis oder die Anzahl spezifisch ist.

  • Anzahl der Wörter: Die Gesamtzahl der Wörter in dieser Zeile. Das Suffix für diese Ausgabespalte ist-stats_word_countaus.

  • Anzahl der Zeichen: Die Gesamtzahl der Zeichen in dieser Zeile. Das Suffix für diese Ausgabespalte ist-stats_char_countaus.

  • Verhältnis von oben: Die Anzahl der Großbuchstaben von A bis Z geteilt durch alle Zeichen in der Spalte. Das Suffix für diese Ausgabespalte ist-stats_capital_ratioaus.

  • Verhältnis von niedrigerem: Die Anzahl der Kleinbuchstaben von a bis z geteilt durch alle Zeichen in der Spalte. Das Suffix für diese Ausgabespalte ist-stats_lower_ratioaus.

  • Verhältnis der Ziffern: Das Verhältnis der Ziffern in einer einzigen Zeile über die Summe der Ziffern in der Eingabespalte. Das Suffix für diese Ausgabespalte ist-stats_digit_ratioaus.

  • Verhältnis von Sonderzeichen: Das Verhältnis von nicht alphanumerischen (Zeichen wie #$&%: @) zu einer Summe aller Zeichen in der Eingabespalte. Das Suffix für diese Ausgabespalte ist-stats_special_ratioaus.

Vektorisieren

Das Einbetten von Text beinhaltet das Mappen von Wörtern oder Phrasen aus einem Vokabular zu Vektoren reeller Zahlen. Verwenden Sie die Transformation zur Datenwrangler-Text-Einbettung, um Textdaten in Vektoren für die Frequenz- Inverse Document Frequency (TF-IDF) zu vektorisieren und zu vektorisieren.

Wenn TF-IDF für eine Spalte mit Textdaten berechnet wird, wird jedes Wort in jedem Satz in eine reelle Zahl umgewandelt, die seine semantische Bedeutung darstellt. Höhere Zahlen sind mit weniger häufigen Wörtern verbunden, die tendenziell aussagekräftiger sind.

Wenn Sie ein definierenVektorisierenTransformationsschritt, der Count-Vectorizer und TF-IDF-Methoden werden unter Verwendung von Daten definiert, die in Data Wrangler bei der Definition dieses Schritts verfügbar sind. Dieselben Methoden werden beim Ausführen eines Data Wrangler-Jobs verwendet.

Sie konfigurieren diese Transformation folgendermaßen:

  • Ausgabespalte: Diese Transformation erstellt eine neue Spalte mit der Einbettung des Textes. Verwenden Sie dieses Feld, um einen Namen für diese Ausgabespalte anzugeben.

  • Token: Ein Tokenizer wandelt den Satz in eine Liste von Wörtern um, oderSpielmarkenaus.

    Klicken Sie aufStandard-um einen Tokenizer zu verwenden, der nach Leerzeichen teilt und jedes Wort in Kleinbuchstaben umwandelt. Beispiel,"Good dog"ist tokenisiert auf["good","dog"]aus.

    Klicken Sie aufBenutzerdefiniertum einen benutzerdefinierten Tokenizer zu verwenden. Wenn Sie die OptionBenutzerdefiniertverwenden, können Sie die folgenden Felder verwenden, um den Tokenizer zu konfigurieren:

    • Minimale Tokenlänge: Die Mindestlänge in Zeichen, damit ein Token gültig ist. Standardeinstellung: 1. Wenn Sie beispielsweise angeben3für minimale Tokenlänge Wörter wiea, at, inwerden aus dem tokenisierten Satz gestrichen.

    • Sollte sich Regex auf Lücken teilen: Wenn ausgewählt,regexteilt sich auf Lücken. Andernfalls stimmt es mit Token überein. Standardeinstellung: True.

    • Regex-Muster: Regex-Muster, das den Tokenisierungsprozess definiert. Standardeinstellung: ' \\ s+'.

    • In Kleinbuchstaben: Wenn ausgewählt, werden alle Zeichen vor der Tokenisierung in Kleinbuchstaben konvertiert. Standardeinstellung: True.

    Weitere Informationen finden Sie in der Spark-Dokumentation unterTokenaus.

  • Vektorisierer: Der Vektorisierer wandelt die Liste der Token in einen spärlichen numerischen Vektor um. Jedes Token entspricht einem Index im Vektor und ein ungleich Null zeigt das Vorhandensein des Tokens im Eingabensatz an. Sie haben die Wahl zwischen zwei Vektoriser-Optionen:AnzahlundHashingaus.

    • Graf vektorisierenermöglicht Anpassungen, die seltene oder zu häufige Token filtern. Zählen Sie Vektorisierungsparametersind Folgende:

      • Minimale Laufzeithäufigkeit: In jeder Zeile werden Begriffe (Token) mit kleinerer Frequenz gefiltert. Wenn Sie eine Ganzzahl angeben, ist dies ein absoluter Schwellenwert (einschließlich). Wenn Sie einen Bruch zwischen 0 (einschließlich) und 1 angeben, ist der Schwellenwert relativ zur Gesamtzahl der Terme. Standardeinstellung: 1.

      • Minimale Dokumentenhäufigkeit: Mindestanzahl von Zeilen, in denen ein Begriff (Token) enthalten sein muss. Wenn Sie eine Ganzzahl angeben, ist dies ein absoluter Schwellenwert (einschließlich). Wenn Sie einen Bruch zwischen 0 (einschließlich) und 1 angeben, ist der Schwellenwert relativ zur Gesamtzahl der Terme. Standardeinstellung: 1.

      • Maximale Dokumentenhäufigkeit: Maximale Anzahl von Dokumenten (Zeilen), in die ein Begriff (Token) enthalten sein kann. Wenn Sie eine Ganzzahl angeben, ist dies ein absoluter Schwellenwert (einschließlich). Wenn Sie einen Bruch zwischen 0 (einschließlich) und 1 angeben, ist der Schwellenwert relativ zur gesamten Termanzahl. Standardeinstellung: 0.999.

      • Maximale Wortschatzgröße: Maximale Größe des Vokabulars. Das Vokabular besteht aus allen Begriffen (Token) in allen Zeilen der Spalte. Standardeinstellung: 262144.

      • Binary Ausgänge: Wenn diese Option ausgewählt ist, enthalten die Vektorausgaben nicht die Anzahl der Darstellungen eines Begriffs in einem Dokument, sondern sind vielmehr ein binärer Indikator für sein Aussehen. Standardeinstellung: False.

      Weitere Informationen zu dieser Option finden Sie in der Spark-Dokumentation unterCountVectorizeraus.

    • Hashingist rechnerisch schneller. Hash vektorisieren Parameterumfasst Folgendes:

      • Anzahl der Funktionen beim Hashing: Ein Hash-Vektorizer ordnet Token entsprechend ihrem Hash-Wert einem Vektorindex zu. Diese Funktion bestimmt die Anzahl der möglichen Hashwerte. Große Werte führen zu weniger Kollisionen zwischen Hashwerten, aber zu einem höheren Ausgabevektor der Dimension.

      Weitere Informationen zu dieser Option finden Sie in der Spark-Dokumentation unterFeatureHasher

  • Apply IDF: Bei Auswahl dieser Option wird eine IDF-Transformation angewendet, die den Begriff Frequenz mit der standardmäßigen inversen Dokumentfrequenz multipliziert, die für die TF-IDF-Einbettung verwendet wird. IDF-Parametersind Folgende:

    • Minimale Dokumentenhäufigkeit: Mindestanzahl von Dokumenten (Zeilen), in denen ein Begriff (Token) enthalten sein muss. Wenncount_vectorizeist der gewählte Vectorizer, wir empfehlen, den Standardwert beizubehalten und nur diemin_doc_freqfield inZählen Sie Vektorisierungsparameteraus. Standardeinstellung: 5.

  • Ausgabeformat:Das Ausgabeformat jeder Zeile.

    • SelectVektorum eine einzelne Spalte mit einem spärlichen Vektor zu erzeugen.

    • SelectAbflachtum eine Spalte für jede Kategorie mit einer Indikatorvariablen dafür zu erstellen, ob der Text in der ursprünglichen Spalte einen Wert enthält, der dieser Kategorie entspricht. Sie können nur abgeflacht auswählen, wennVektorisiererist eingestellt alsGraf Vektorisiereraus.

Transformieren von Zeitreihen

In Data Wrangler können Sie Zeitreihendaten transformieren. Die Werte in einem Zeitreihen-Dataset werden auf bestimmte Zeit indiziert. Ein Datensatz, der die Anzahl der Kunden in einem Geschäft für jede Stunde an einem Tag anzeigt, ist beispielsweise ein Zeitreihendatensatz. Die folgende Tabelle zeigt ein Beispiel für ein Zeitreihen-Dataset.

Stündlich Anzahl von Kunden in einem Geschäft
Anzahl der Kunden Zeit (Stunde)
4 09:00
10 10:00
14 11:00
25 12:00
20 13:00
18 14:00

Für die vorhergehende Tabelle ist dieAnzahl der Kunden-Spalte enthält die Zeitreihendaten. Die Zeitreihendaten werden für die Stundendaten in der Spalte „Zeit (Stunde)“ indiziert.

Möglicherweise müssen Sie eine Reihe von Transformationen an Ihren Daten durchführen, um sie in einem Format zu erhalten, das Sie für Ihre Analyse verwenden können. Verwenden derZeitreihetransformiere Gruppe, um deine Zeitreihendaten zu transformieren. Weitere Informationen zu den Transformationen, die Sie durchführen können, finden Sie in den folgenden Abschnitten.

Nach einer Zeitreihe gruppieren

Sie können die Gruppe nach Operation verwenden, um Zeitreihendaten für bestimmte Werte in einer Spalte zu gruppieren.

Zum Beispiel haben Sie die folgende Tabelle, die den durchschnittlichen täglichen Stromverbrauch in einem Haushalt verfolgt.

Durchschnittlicher täglicher Stromverbrauch im Haushalt
Haushalts-ID Täglicher Zeitstempel Stromverbrauch (kWh) Anzahl der Haushaltsbewohner
household_0 1.1.2020 30 2
household_0 02.01.2020 40 2
household_0 04.01.2020 35 3
household_1 02.01.2020 45 3
household_1 03.01.2020 55 4

Wenn Sie sich entscheiden, nach ID zu gruppieren, erhalten Sie die folgende Tabelle.

Stromverbrauch gruppiert nach Haushaltsausweis
Haushalts-ID Stromverbrauchs-Serie (kWh) Anzahl der Haushaltsinszenserien
household_0 [30, 40, 35] [2, 2, 3, 3
household_1 [45, 55] [3, 4]

Jeder Eintrag in der Zeitreihenfolge wird nach dem entsprechenden Zeitstempel geordnet. Das erste Element der Sequenz entspricht dem ersten Zeitstempel der Serie. Fürhousehold_0,30ist der erste Wert derStromverbrauchs-Serieaus. Der Wert von30entspricht dem ersten Zeitstempel von1/1/2020aus.

Sie können den Startzeitstempel und den Endzeitstempel einschließen. Die folgende Tabelle zeigt ein Beispiel dafür, wie dies angezeigt wird.

Stromverbrauch gruppiert nach Haushaltsausweis
Haushalts-ID Stromverbrauchs-Serie (kWh) Anzahl der Haushaltsinszenserien Start_Time End_Time
household_0 [30, 40, 35] [2, 2, 3, 3 1.1.2020 04.01.2020
household_1 [45, 55] [3, 4] 02.01.2020 03.01.2020

Sie können den folgenden Vorgang verwenden, um nach einer Zeitreihenspalte zu gruppieren.

  1. Öffnen Sie Ihren Data Wrangler-Datenfluss.

  2. Wenn Sie Ihren Datensatz nicht importiert haben, importieren Sie ihn unterImportieren von Daten-Registerkarten

  3. In Ihrem Datenfluss unterDatentypen, wähle das+, und SelectHinzufügen von Transformationaus.

  4. Klicken Sie aufHinzufügen von Schrittaus.

  5. Klicken Sie aufZeitreiheaus.

  6. UnterTransformation, wählenGroup by (Gruppierung nach)aus.

  7. Geben Sie eine Spalte inNach dieser Spalte gruppierenaus.

  8. FürAuf Spalten anwenden, geben Sie einen Wert an.

  9. Klicken Sie auf-Vorschauum eine Vorschau der Transformation zu erzeugen.

  10. Klicken Sie aufAddum die Transformation zum Datenfluss von Data Wrangler hinzuzufügen.

Resampeln von Zeitreihendaten

Zeitreihendaten enthalten normalerweise Beobachtungen, die nicht in regelmäßigen Abständen aufgenommen werden. Zum Beispiel könnte ein Datensatz einige Beobachtungen enthalten, die stündlich aufgezeichnet werden, und andere Beobachtungen, die alle zwei Stunden aufgezeichnet werden.

Viele Analysen, wie Prognosealgorithmen, erfordern, dass die Beobachtungen in regelmäßigen Abständen durchgeführt werden. Mit Resampling haben Sie die Möglichkeit, regelmäßige Intervalle für die Beobachtungen in Ihrem Datensatz festzulegen.

Sie können eine Zeitreihe entweder upsample oder downsample. Downsampling erhöht das Intervall zwischen Beobachtungen im Datensatz. Wenn Sie beispielsweise Beobachtungen herunterstammeln, die entweder jede Stunde oder alle zwei Stunden durchgeführt werden, wird jede Beobachtung in Ihrem Datensatz alle zwei Stunden durchgeführt. Die stündlichen Beobachtungen werden unter Verwendung einer Aggregationsmethode wie Mittelwert oder Median zu einem einzelnen Wert zusammengefasst.

Upsampling reduziert das Intervall zwischen Beobachtungen im Datensatz. Wenn Sie beispielsweise Beobachtungen, die alle zwei Stunden in stündlichen Beobachtungen aufgenommen werden, verwenden Sie eine Interpolationsmethode, um stündliche Beobachtungen aus denjenigen abzuleiten, die alle zwei Stunden durchgeführt wurden. Informationen zu Interpolationsmethoden finden Sie unterpandas.dataFrame.Interpolateaus.

Sie können sowohl numerische als auch nicht numerische Daten erneut verwenden.

Verwenden derResampeln-Operation, um Ihre Zeitreihendaten erneut zu sammeln. Wenn Sie mehrere Zeitreihen in Ihrem Datensatz haben, standardisiert Data Wrangler das Zeitintervall für jede Zeitreihe.

Im Folgenden finden Sie ein Beispiel für das Downsampling von Zeitreihendaten unter Verwendung des Mittelwerts als Aggregationsmethode. Die Daten werden von allen zwei Stunden auf jede Stunde heruntergesampelt.

Stündliche Temperaturwerte über einen Tag vor Downsampling
Zeitstempel Temperatur (Celsius)
12:00 30
1:00 32
14:00 35
3:00 32
4:00 30
Temperaturwerte werden auf alle zwei Stunden heruntergesenkt
Zeitstempel Temperatur (Celsius)
12:00 30
14:00 33.5
14:00 35
4:00 32,5

Sie können das folgende Verfahren verwenden, um Zeitreihendaten erneut zu sammeln.

  1. Öffnen Sie Ihren Data Wrangler-Datenfluss.

  2. Wenn Sie Ihren Datensatz nicht importiert haben, importieren Sie ihn unterImportieren von Daten-Registerkarten

  3. In Ihrem Datenfluss unterDatentypen, wähle das+, und SelectHinzufügen von Transformationaus.

  4. Klicken Sie aufHinzufügen von Schrittaus.

  5. Klicken Sie aufResampelnaus.

  6. FürZeitstempelWählen Sie die -Zeitstempelspalte aus.

  7. FürFrequency Unit, geben Sie die Häufigkeit an, die Sie erneut verwenden möchten.

  8. (Optional) Geben Sie einen Wert fürHäufigkeitsmengeaus.

  9. Konfigurieren Sie die Transformation, indem Sie die verbleibenden Felder angeben.

  10. Klicken Sie auf-Vorschauum eine Vorschau der Transformation zu erzeugen.

  11. Klicken Sie aufAddum die Transformation zum Datenfluss von Data Wrangler hinzuzufügen.

Behandle fehlende Zeitreihendaten

Wenn Sie Werte in Ihrem Dataset haben, können Sie eine der folgenden Aktionen durchführen:

  • Legen Sie bei Datensätzen mit mehreren Zeitreihen die Zeitreihen mit fehlenden Werten ab, die größer als ein von Ihnen festgelegter Schwellenwert sind.

  • Geben Sie die fehlenden Werte in einer Zeitreihe an, indem Sie andere Werte in der Zeitreihe verwenden.

Das Zuschreiben eines fehlenden Wertes beinhaltet das Ersetzen der Daten durch Angabe eines Wertes oder durch Verwendung einer folgerischen Methode. Im Folgenden sind die Methoden aufgeführt, die Sie für die Zurechnung verwenden können:

  • Konstanter Wert — Ersetzen Sie alle fehlenden Daten in Ihrem Datensatz durch einen von Ihnen angegebenen Wert.

  • Häufigster Wert — Ersetzen Sie alle fehlenden Daten durch den Wert, der die höchste Häufigkeit im Datensatz aufweist.

  • Füllung vorwärts — Ersetzen Sie die fehlenden Werte durch den nicht fehlenden Wert, der den fehlenden Werten vorausgeht. Für die Sequenz: [2, 4, 7, NaN, NaN, NaN, 8], alle fehlenden Werte werden durch 7 ersetzt. Die Reihenfolge, die sich aus der Verwendung einer Vorwärtsfüllung ergibt, ist [2, 4, 7, 7, 7, 8].

  • Rückwärtsfüllung — Verwenden Sie eine Rückwärtsfüllung, um die fehlenden Werte durch den nicht fehlenden Wert zu ersetzen, der den fehlenden Werten folgt. Für die Sequenz: [2, 4, 7, NaN, NaN, NaN, 8], alle fehlenden Werte werden durch 8 ersetzt. Die Reihenfolge, die sich aus der Verwendung einer Rückwärtsfüllung ergibt, ist [2, 4, 7, 8, 8, 8, 8].

  • Interpolieren — Verwendet eine Interpolationsfunktion, um die fehlenden Werte anzugeben. Weitere Informationen zu den Funktionen, die Sie für die Interpolation verwenden können, finden Sie unterpandas.dataFrame.Interpolateaus.

Einige der Imputationsmethoden können möglicherweise nicht den gesamten fehlenden Wert in Ihrem Datensatz angeben. Zum Beispiel ist einFill Forwardkann keinen fehlenden Wert angeben, der zu Beginn der Zeitreihe erscheint. Sie können die Werte angeben, indem Sie entweder eine Vorwärtsfüllung oder eine Rückwärtsfüllung verwenden.

Sie können entweder fehlende Werte innerhalb einer Zelle oder innerhalb einer Spalte angeben.

Im folgenden Beispiel wird gezeigt, wie Werte innerhalb einer Zelle zugeordnet werden.

Stromverbrauch mit fehlenden Werten
Haushalts-ID Stromverbrauchs-Serie (kWh)
household_0 [30, 40, 35, NaN, NaN]
household_1 [45, NaN, 55]
Stromverbrauch mit Werten, die unter Verwendung einer Vorwärtsfüllung berechnet werden
Haushalts-ID Stromverbrauchs-Serie (kWh)
household_0 [30, 40, 35, 35, 35]
household_1 [45, 45, 55]

Im folgenden Beispiel wird veranschaulicht, wie Werte innerhalb einer Spalte zugeordnet werden.

Durchschnittlicher täglicher Stromverbrauch im Haushalt mit fehlenden Werten
Haushalts-ID Stromverbrauch (kWh)
household_0 30
household_0 40
household_0 NaN
household_1 NaN
household_1 NaN
Durchschnittlicher täglicher Stromverbrauch im Haushalt mit Werten, die unter Verwendung einer Vorwärtsfüllung berechnet werden
Haushalts-ID Stromverbrauch (kWh)
household_0 30
household_0 40
household_0 40
household_1 40
household_1 40

Sie können den folgenden Vorgang verwenden, um fehlende Werte zu behandeln.

  1. Öffnen Sie Ihren Data Wrangler-Datenfluss.

  2. Wenn Sie Ihren Datensatz nicht importiert haben, importieren Sie ihn unterImportieren von Daten-Registerkarten

  3. In Ihrem Datenfluss unterDatentypen, wähle das+, und SelectHinzufügen von Transformationaus.

  4. Klicken Sie aufHinzufügen von Schrittaus.

  5. Klicken Sie aufFehlender Handleaus.

  6. FürEingangstyp der Zeitreiwählen, ob Sie fehlende Werte innerhalb einer Zelle oder entlang einer Spalte behandeln möchten.

  7. FürFehlende Werte für diese Spalte angeben, geben Sie die Spalte mit den fehlenden Werten an.

  8. FürMethode zum Einschreiben von Werten, wählen Sie eine Methode aus.

  9. Konfigurieren Sie die Transformation, indem Sie die verbleibenden Felder angeben.

  10. Klicken Sie auf-Vorschauum eine Vorschau der Transformation zu erzeugen.

  11. Wenn Sie fehlende Werte haben, können Sie eine Methode für die Zuordnung angeben unterMethode zum Einschreiben von Wertenaus.

  12. Klicken Sie aufAddum die Transformation zum Datenfluss von Data Wrangler hinzuzufügen.

Validieren Sie den Zeitstempel Ihrer Zeitreihendaten

Möglicherweise haben Sie Zeitstempeldaten, die ungültig sind. Sie können dasValidieren von Zeitstempel-Funktion, um zu ermitteln, ob die Zeitstempel in Ihrem Dataset gültig sind. Ihr Zeitstempel kann aus einem oder mehreren der folgenden Gründe ungültig sein:

  • In Ihrer Zeitstempelspalte fehlen Werte.

  • Die Werte in Ihrer Zeitstempelspalte sind nicht richtig formatiert.

Wenn Sie ungültige Zeitstempel in Ihrem Datensatz haben, können Sie Ihre Analyse nicht erfolgreich durchführen. Sie können Data Wrangler verwenden, um ungültige Zeitstempel zu identifizieren und zu verstehen, wo Sie Ihre Daten bereinigen müssen.

Die Zeitreihenvalidierung funktioniert auf eine der beiden Arten:

Sie können Data Wrangler so konfigurieren, dass eine der folgenden Aktionen ausgeführt wird, wenn in Ihrem Datensatz fehlende Werte auftreten:

  • Lassen Sie die Zeilen fallen, die die fehlenden oder ungültigen Werte enthalten.

  • Identifizieren Sie die Zeilen mit fehlenden oder ungültigen Werten.

  • Lösen Sie einen Fehler aus, wenn fehlende oder ungültige Werte in Ihrem Datensatz gefunden werden.

Sie können die Zeitstempel für Spalten validieren, die entweder dietimestamptippen oder dasstringTyp Wenn die Spalte diestringtype konvertiert Data Wrangler den Typ der Spalte intimestampund führt die Validierung durch.

Sie können den folgenden Vorgang verwenden, um die Zeitstempel in Ihrem Datensatz zu validieren.

  1. Öffnen Sie Ihren Data Wrangler-Datenfluss.

  2. Wenn Sie Ihren Datensatz nicht importiert haben, importieren Sie ihn unterImportieren von Daten-Registerkarten

  3. In Ihrem Datenfluss unterDatentypen, wähle das+, und SelectHinzufügen von Transformationaus.

  4. Klicken Sie aufHinzufügen von Schrittaus.

  5. Klicken Sie aufValidieren von Zeitstempelnaus.

  6. FürTimestamp-SpalteWählen Sie die -Zeitstempelspalte aus.

  7. Für--Richtlinie, wählen Sie aus, ob Sie mit fehlenden Zeitstempeln umgehen möchten.

  8. (Optional) FürOutput-Spalte, geben Sie einen Namen für die Ausgabespalte an.

  9. Wenn die Datumszeitspalte für den String-Typ formatiert ist, wählen SieIn Datetime umwandelnaus.

  10. Klicken Sie auf-Vorschauum eine Vorschau der Transformation zu erzeugen.

  11. Klicken Sie aufAddum die Transformation zum Datenfluss von Data Wrangler hinzuzufügen.

Standardisierung der Länge der Zeitreihe

Wenn Sie Zeitreihendaten als Arrays gespeichert haben, können Sie jede Zeitreihe auf die gleiche Länge standardisieren. Die Standardisierung der Länge des Zeitreihenarrays kann es Ihnen erleichtern, Ihre Analyse der Daten durchzuführen.

Sie können Ihre Zeitreihen für Datentransformationen standardisieren, bei denen die Länge Ihrer Daten festgelegt werden muss.

Bei vielen ML-Algorithmen müssen Sie Ihre Zeitreihendaten abflachen, bevor Sie sie verwenden. Durch das Abflachen von Zeitreihendaten wird jeder Wert der Zeitreihe in eine eigene Spalte in einem Datensatz getrennt. Die Anzahl der Spalten in einem Datensatz kann sich nicht ändern, daher müssen die Längen der Zeitreihen standardisiert werden, wenn Sie jedes Array in eine Reihe von Features abflachen.

Jede Zeitreihe ist auf die Länge eingestellt, die Sie als Quantil oder Perzentil der eingestellten Zeitreihen angeben. Zum Beispiel können Sie drei Sequenzen haben, die folgende Längen haben:

  • 3

  • 4

  • 5

Sie können die Länge aller Sequenzen als Länge der Sequenz festlegen, die die 50. Perzentillänge hat.

Zeitreihenarrays, die kürzer als die von Ihnen angegebene Länge sind, wurden fehlende Werte hinzugefügt. Im Folgenden finden Sie ein Beispielformat zur Standardisierung der Zeitreihen auf eine längere Länge: [2, 4, 5, NaN, NaN, NaN].

Sie können verschiedene Ansätze verwenden, um die fehlenden Werte zu behandeln. Weitere Informationen zu diesen Ansätzen finden Sie unterBehandle fehlende Zeitreihendatenaus.

Die Zeitreihenarrays, die länger als die von Ihnen angegebene Länge sind, werden abgeschnitten.

Mit dem folgenden Verfahren können Sie die Länge der Zeitreihen standardisieren.

  1. Öffnen Sie Ihren Data Wrangler-Datenfluss.

  2. Wenn Sie Ihren Datensatz nicht importiert haben, importieren Sie ihn unterImportieren von Daten-Registerkarten

  3. In Ihrem Datenfluss unterDatentypen, wähle das+, und SelectHinzufügen von Transformationaus.

  4. Klicken Sie aufHinzufügen von Schrittaus.

  5. Klicken Sie aufStandardisieren der Längeaus.

  6. FürStandardisieren Sie die Zeitreihenlänge für die Spalte, wählen Sie eine Spalte aus.

  7. (Optional) FürOutput-Spalte, geben Sie einen Namen für die Ausgabespalte an. Wenn Sie keinen Namen angeben, wird die Transformation durchgeführt.

  8. Wenn die Datumszeitspalte für den String-Typ formatiert ist, wählen SieIn Datetime umwandelnaus.

  9. Klicken Sie aufCutoff-Quantil, geben Sie ein Quantil an, um die Länge der Sequenz festzulegen.

  10. Klicken Sie aufVereinfachung der Ausgabeum die Werte der Zeitreihe in separate Spalten auszugeben.

  11. Klicken Sie auf-Vorschauum eine Vorschau der Transformation zu erzeugen.

  12. Klicken Sie aufAddum die Transformation zum Datenfluss von Data Wrangler hinzuzufügen.

Extrahieren Sie Funktionen aus Ihren Zeitseriendaten

Wenn Sie eine Klassifizierung oder einen Regressionsalgorithmus für Ihre Zeitreihendaten ausführen, empfehlen wir, Features aus der Zeitreihe zu extrahieren, bevor Sie den Algorithmus ausführen. Das Extrahieren von Funktionen kann die Leistung Ihres Algorithmus verbessern.

Verwenden Sie die folgenden Optionen, um auszuwählen, wie Sie Features aus Ihren Daten extrahieren möchten:

  • Verwenden vonMinimale Teilmengeum anzugeben, dass 8 Funktionen extrahiert werden, von denen Sie wissen, dass sie in Downstream-Analysen nützlich sind. Sie können eine minimale Teilmenge verwenden, wenn Sie Berechnungen schnell durchführen müssen. Sie können es auch verwenden, wenn Ihr ML-Algorithmus ein hohes Risiko einer Überanpassung aufweist und Sie ihm weniger Funktionen bieten möchten.

  • Verwenden vonEffiziente Teilmengeum anzugeben, dass Sie die meisten möglichen Funktionen extrahieren, ohne Funktionen zu extrahieren, die in Ihren Analysen rechenintensiv sind.

  • Verwenden vonAlle Funktionenum festzulegen, dass alle Features aus der tune-Reihe extrahiert werden.

  • Verwenden vonManuelle Teilmengeum eine Liste von Funktionen auszuwählen, die Ihrer Meinung nach die Variation Ihrer Daten gut erklären.

Verwenden Sie das folgende Verfahren, um Features aus Ihren Zeitreihendaten zu extrahieren.

  1. Öffnen Sie Ihren Data Wrangler-Datenfluss.

  2. Wenn Sie Ihren Datensatz nicht importiert haben, importieren Sie ihn unterImportieren von Daten-Registerkarten

  3. In Ihrem Datenfluss unterDatentypen, wähle das+, und SelectHinzufügen von Transformationaus.

  4. Klicken Sie aufHinzufügen von Schrittaus.

  5. Klicken Sie aufExtract Featuresaus.

  6. FürExtrahieren Sie Funktionen für diese Spalte, wählen Sie eine Spalte aus.

  7. (Optional) Wählen SieFlattenum die Features in separate Spalten auszugeben.

  8. FürStrategiewählen Sie eine Strategie, um die Funktionen zu extrahieren.

  9. Klicken Sie auf-Vorschauum eine Vorschau der Transformation zu erzeugen.

  10. Klicken Sie aufAddum die Transformation zum Datenfluss von Data Wrangler hinzuzufügen.

Verwenden Sie verzögerte Funktionen aus Ihren Zeitseriendaten

In vielen Anwendungsfällen ist der beste Weg, das future Verhalten Ihrer Zeitreihen vorherzusagen, das jüngste Verhalten zu verwenden.

Die häufigsten Verwendungszwecke von verzögerten Features sind die folgenden:

  • Eine Handvoll vergangener Werte sammeln. Zum Beispiel, für die Zeit, t + 1, sammelst du t, t - 1, t - 2 und t - 3.

  • Sammeln von Werten, die dem saisonalen Verhalten in den Daten entsprechen. Um beispielsweise die Belegung in einem Restaurant um 13:00 Uhr vorherzusagen, sollten Sie die Funktionen am Vortag ab 13:00 Uhr nutzen. Die Verwendung der Funktionen von 12:00 Uhr oder 11:00 Uhr am selben Tag ist möglicherweise nicht so vorausschauend wie die Verwendung der Funktionen aus früheren Tagen.

  1. Öffnen Sie Ihren Data Wrangler-Datenfluss.

  2. Wenn Sie Ihren Datensatz nicht importiert haben, importieren Sie ihn unterImportieren von Daten-Registerkarten

  3. In Ihrem Datenfluss unterDatentypen, wähle das+, und SelectHinzufügen von Transformationaus.

  4. Klicken Sie aufHinzufügen von Schrittaus.

  5. Klicken Sie aufLag-Funktionenaus.

  6. FürGenerieren von Verzögerungsfunktionen für diese Spalte, wählen Sie eine Spalte aus.

  7. FürTimestamp-Spalte, wählen Sie die Spalte aus, die die Zeitstempel enthält.

  8. FürLAG, geben Sie die Dauer der Verzögerung an.

  9. (Optional) Konfigurieren Sie die Ausgabe mit einer der folgenden Optionen:

    • Schließen Sie das gesamte Verzögerungsfenster ein

    • Vereinfachung der Ausgabe

    • Zeilen ohne Verlauf löschen

  10. Klicken Sie auf-Vorschauum eine Vorschau der Transformation zu erzeugen.

  11. Klicken Sie aufAddum die Transformation zum Datenfluss von Data Wrangler hinzuzufügen.

Erstellen Sie einen Datetime-Bereich in Ihrer Zeitreihe

Möglicherweise haben Sie Zeitreihendaten, die keine Zeitstempel haben. Wenn Sie wissen, dass die Beobachtungen in regelmäßigen Abständen aufgenommen wurden, können Sie Zeitstempel für die Zeitreihe in einer separaten Spalte generieren. Um Zeitstempel zu erzeugen, geben Sie den Wert für den Startzeitstempel und die Häufigkeit der Zeitstempel an.

Beispielsweise könnten Sie die folgenden Zeitreihendaten für die Anzahl der Kunden in einem Restaurant haben.

Zeitreihendaten zur Anzahl der Kunden in einem Restaurant
Anzahl der Kunden
10
14
24
40
30
20

Wenn Sie wissen, dass das Restaurant um 17:00 Uhr geöffnet hat und dass die Beobachtungen stündlich durchgeführt werden, können Sie eine Zeitstempelspalte hinzufügen, die den Zeitreihendaten entspricht. Sie können die Zeitstempelspalte in der folgenden Tabelle sehen.

Zeitreihendaten zur Anzahl der Kunden in einem Restaurant
Anzahl der Kunden Zeitstempel
10 13:00 Uhr
14 14:00 Uhr
24 15:00 Uhr
40 16:00 Uhr
30 17:00 Uhr
20 18:00 Uhr

Gehen Sie wie folgt vor, um Ihren Daten einen Datetime-Bereich hinzuzufügen.

  1. Öffnen Sie Ihren Data Wrangler-Datenfluss.

  2. Wenn Sie Ihren Datensatz nicht importiert haben, importieren Sie ihn unterImportieren von Daten-Registerkarten

  3. In Ihrem Datenfluss unterDatentypen, wähle das+, und SelectHinzufügen von Transformationaus.

  4. Klicken Sie aufHinzufügen von Schrittaus.

  5. Klicken Sie aufDatum-/Uhrzeitbereichaus.

  6. FürFrequency Typewählen Sie die Einheit aus, mit der die Frequenz der Zeitstempel gemessen wird.

  7. FürStarttimestempel, geben Sie den Startzeitstempel an.

  8. FürOutput-Spalte, geben Sie einen Namen für die Ausgabespalte an.

  9. (Optional) Konfigurieren Sie die Ausgabe mit den verbleibenden Feldern.

  10. Klicken Sie auf-Vorschauum eine Vorschau der Transformation zu erzeugen.

  11. Klicken Sie aufAddum die Transformation zum Datenfluss von Data Wrangler hinzuzufügen.

Verwenden Sie ein rollendes Fenster in Ihrer Zeitreihe

Sie können Funktionen über einen Zeitraum extrahieren. Zum Beispiel hängen wir für Zeit, t und eine Zeitfensterlänge von 3 und für die Zeile, die den zehnten Zeitstempel angibt, die zeitweise t - 3, t -2 und t - 1 aus den Zeitreihen extrahiert werden. Informationen zum Extrahieren von Funktionen finden Sie unterExtrahieren Sie Funktionen aus Ihren Zeitseriendatenaus.

Sie können den folgenden Vorgang verwenden, um Features über einen Zeitraum zu extrahieren.

  1. Öffnen Sie Ihren Data Wrangler-Datenfluss.

  2. Wenn Sie Ihren Datensatz nicht importiert haben, importieren Sie ihn unterImportieren von Daten-Registerkarten

  3. In Ihrem Datenfluss unterDatentypen, wähle das+, und SelectHinzufügen von Transformationaus.

  4. Klicken Sie aufHinzufügen von Schrittaus.

  5. Klicken Sie aufFunktionen für rollende Fensteraus.

  6. FürGenerieren von Rollfenster-Features für diese Spalte, wählen Sie eine Spalte aus.

  7. FürTimestamp-Spalte, wählen Sie die Spalte aus, die die Zeitstempel enthält.

  8. (Optional) FürAusgabespalteGeben Sie den Namen der Ausgabespalte an.

  9. FürGröße des FenstersGeben Sie die Größe des Fensters an.

  10. FürStrategie, wählen Sie die Extraktionsstrategie.

  11. Klicken Sie auf-Vorschauum eine Vorschau der Transformation zu erzeugen.

  12. Klicken Sie aufAddum die Transformation zum Datenfluss von Data Wrangler hinzuzufügen.

Festlegen von Datum/Zeit

Verwenden vonDatum/Uhrzeit ausstattenum eine Vektoreinbettung zu erstellen, die ein Datum/Uhrzeitfeld darstellt. Um diese Transformation verwenden zu können, müssen Ihre Datums-/Uhrzeitdaten in einem der folgenden Formate vorliegen:

  • Strings über Datum/Uhrzeit: Zum Beispiel "January 1st, 2020, 12:44pm".

  • Ein Unix-Zeitstempel: Ein Unix-Zeitstempel beschreibt die Anzahl der Sekunden, Millisekunden, Mikrosekunden oder Nanosekunden ab 1.1.1970.

Sie können wählenAbleiten von Datum-/Uhrzeit-Formatund stellen Sie ein zur VerfügungDatum-/Uhrzeitformataus. Wenn Sie ein Datums-/Uhrzeitformat angeben, müssen Sie die in derPython-Dokumentationaus. Die Optionen, die Sie für diese beiden Konfigurationen auswählen, haben Auswirkungen auf die Geschwindigkeit des Vorgangs und die Endergebnisse.

  • Die manuellste und rechnerisch schnellste Option ist die Angabe einesDatum-/Uhrzeitformatund wählen SieNeinzumAbleiten von Datum-/Uhrzeit-Formataus.

  • Um die Handarbeit zu reduzieren, können Sie wählenAbleiten von Datum-/Uhrzeit-Formatund geben Sie kein Datum/Uhrzeitformat an. Es handelt sich auch um eine rechenschnelle Operation; es wird jedoch davon ausgegangen, dass das erste Datums-/Uhrzeitformat in der Eingabespalte das Format für die gesamte Spalte ist. Wenn die Spalte andere Formate enthält, sind diese Werte NaN in der endgültigen Ausgabe. Durch das Ableiten des Datums-/Uhrzeitformats können Sie nicht analysierte Zeichenfolgen erhalten.

  • Wenn Sie kein Format angeben und auswählenNeinzumAbleiten von Datum-/Uhrzeit-Formaterhalten Sie die robustesten Ergebnisse. Alle gültigen Datum/Uhrzeit-Zeichenfolgen werden analysiert. Dieser Vorgang kann jedoch um eine Größenordnung langsamer sein als die ersten beiden Optionen in dieser Liste.

Wenn Sie diese Transformation verwenden, geben Sie einEingabe-Spaltewelches Datums-/Uhrzeitdaten in einem der oben aufgeführten Formate enthält. Die Transformation erstellt eine Ausgabespalte namensAusgabespalteaus. Das Format der Ausgabespalte hängt von Ihrer Konfiguration ab, indem Sie Folgendes verwenden:

  • Vektor: Gibt eine einzelne Spalte als Vektor aus.

  • Spalten: Erstellt eine neue Spalte für jedes Feature. Wenn die Ausgabe beispielsweise ein Jahr, einen Monat und einen Tag enthält, werden drei separate Spalten für Jahr, Monat und Tag erstellt.

Außerdem müssen Sie eine auswählenEinbettungsmodusaus. Für lineare Modelle und Deep Networks empfehlen wir die Wahlzyklischemaus. Für baumbasierte Algorithmen empfehlen wir die AuswahlORDINALaus.

Formatieren von

DieFormatieren vonTransformationen enthalten Standard-Zeichenfolgenformatierungsoperationen. Sie können diese Operationen beispielsweise verwenden, um Sonderzeichen zu entfernen, Zeichenfolgenlängen zu normalisieren und das String-Gehäuse zu aktualisieren.

Diese Feature-Gruppe enthält die folgenden Transformationen. Alle Transformationen geben Kopien der Strings imEingabe-Spalteund fügen Sie das Ergebnis einer neuen Ausgabespalte hinzu.

Name Funktion
Linker Block

Linke Pad die Saite mit einem bestimmtenFill Zeichenauf das GegebeneWeiteaus. Wenn die Zeichenfolge länger ist alsWeitewird der Rückgabewert gekürzt aufWeiteZeichen.

Rechtes Pad

Setzen Sie die Zeichenfolge rechts mit einem bestimmtenFill Zeichenauf das GegebeneWeiteaus. Wenn die Zeichenfolge länger ist alsWeitewird der Rückgabewert gekürzt aufWeiteZeichen.

Mitte (Pad auf beiden Seiten)

In der Mitte der Zeichenfolge (Füge Polsterung auf beiden Seiten der Saite hinzu) mit einem bestimmtenFill Zeichenauf das GegebeneWeiteaus. Wenn die Zeichenfolge länger ist alsWeitewird der Rückgabewert gekürzt aufWeiteZeichen.

Präpend Nullen

Fülle eine numerische Zeichenfolge mit Nullen bis zu einem bestimmtenWeiteaus. Wenn die Zeichenfolge länger ist alsWeitewird der Rückgabewert gekürzt aufWeiteZeichen.

Strip links und rechts

Gibt eine Kopie der Zeichenfolge zurück, in der die führenden und nachfolgenden Zeichen entfernt wurden.

Entferne Charaktere von links

Gibt eine Kopie der Zeichenfolge zurück, in der führende Zeichen entfernt wurden.

Entferne Charaktere von rechts

Gibt eine Kopie der Zeichenfolge zurück, in der nachfolgende Zeichen entfernt wurden.

Kleinbuchstaben

Wandelt alle Buchstaben in Text in Kleinbuchstaben um.

Großbuchstaben

Wandelt alle Buchstaben in Text in Großbuchstaben um.

Großschreibung

Schreiben Sie den ersten Buchstaben in jedem Satz groß.

Fall austauschen Konvertiert alle Großbuchstaben in Kleinbuchstaben und alle Kleinbuchstaben in Großbuchstaben der angegebenen Zeichenfolge und gibt sie zurück.
Fügen Sie Präfix oder Suffix hinzu

Fügt ein Präfix und ein Suffix der String-Spalte hinzu. Sie müssen mindestens eine vonPräfixundSuffixaus.

Entfernen Sie Symbole

Entfernt bestimmte Symbole aus einer Zeichenfolge. Alle aufgelisteten Zeichen werden entfernt. Standardmäßig ist Leerräume.

Handle Ausreißer

Modelle des maschinellen Lernens reagieren empfindlich auf die Verteilung und den Bereich Ihrer Funktionswerte. Ausreißer oder seltene Werte können sich negativ auf die Modellgenauigkeit auswirken und zu längeren Trainingszeiten führen. Verwenden Sie diese Featuregruppe, um Ausreißer in Ihrem Datensatz zu erkennen und zu aktualisieren.

Wenn Sie ein definierenHandle AusreißerTransformationsschritt, die Statistiken, die zur Erkennung von Ausreißer verwendet werden, werden für die in Data Wrangler verfügbaren Daten generiert, wenn dieser Schritt definiert wird. Dieselben Statistiken werden beim Ausführen eines Data Wrangler-Jobs verwendet.

In den folgenden Abschnitten erfahren Sie mehr über die Transformationen, die diese Gruppe enthält. Sie geben einAusgabennameund jede dieser Transformationen erzeugt eine Ausgabespalte mit den resultierenden Daten.

Robuste numerische Ausreißer mit Standardabweichung

Diese Transformation erkennt und behebt Ausreißer in numerischen Features mithilfe von Statistiken, die für Ausreißer robust sind.

Sie müssen einUpper Quantilund einNiedrigeres Quantil, die in den Statistiken verwendet werden, die zur Berechnung von Ausreißer verwendet werden. Sie müssen auch die Anzahl vonStandardabweichungenvon dem ein Wert von dem Mittelwert abweichen muss, der als Ausreißer angesehen werden soll. Wenn Sie beispielsweise 3 angeben fürStandardabweichungenmuss ein Wert um mehr als 3 Standardabweichungen von dem Mittelwert fallen, der als Ausreißer betrachtet werden soll.

DieFix-Methodeist die Methode, mit der Ausreißer behandelt werden, wenn sie erkannt werden. Sie können aus den folgenden Optionen auswählen:

  • Clip: Verwenden Sie diese Option, um die Ausreißer an die entsprechende Ausreißererkennung zu beschneiden.

  • Remove: Verwenden Sie diese Option, um Zeilen mit Ausreißer aus dem Datenrahmen zu entfernen.

  • Invalidate: Verwenden Sie diese Option, um Ausreißer durch ungültige Werte zu ersetzen.

Numerische Ausreißer Standardabweichung

Diese Transformation erkennt und behebt Ausreißer in numerischen Merkmalen unter Verwendung des Mittelwerts und der Standardabweichung.

Sie geben die Anzahl derStandardabweichungenein Wert muss von dem Mittelwert abweichen, der als Ausreißer angesehen werden soll. Wenn Sie beispielsweise 3 angeben fürStandardabweichungenmuss ein Wert um mehr als 3 Standardabweichungen von dem Mittelwert fallen, der als Ausreißer betrachtet werden soll.

DieFix-Methodeist die Methode, mit der Ausreißer behandelt werden, wenn sie erkannt werden. Sie können aus den folgenden Optionen auswählen:

  • Clip: Verwenden Sie diese Option, um die Ausreißer an die entsprechende Ausreißererkennung zu beschneiden.

  • Remove: Verwenden Sie diese Option, um Zeilen mit Ausreißer aus dem Datenrahmen zu entfernen.

  • Invalidate: Verwenden Sie diese Option, um Ausreißer durch ungültige Werte zu ersetzen.

Quantile Numerische Ausreißern

Verwenden Sie diese Transformation, um Ausreißer in numerischen Features mithilfe von Quantilen zu erkennen und zu beheben. Sie können eineUpper Quantilund einNiedrigeres Quantilund alle Werte, die über oder unter diese Mengenwerte fallen, gelten als Ausreißer.

DieFix-Methodeist die Methode, mit der Ausreißer behandelt werden, wenn sie erkannt werden. Sie können aus den folgenden Optionen auswählen:

  • Clip: Verwenden Sie diese Option, um die Ausreißer an die entsprechende Ausreißererkennung zu beschneiden.

  • Remove: Verwenden Sie diese Option, um Zeilen mit Ausreißer aus dem Datenrahmen zu entfernen.

  • Invalidate: Verwenden Sie diese Option, um Ausreißer durch ungültige Werte zu ersetzen.

Min-Max Numerische Ausreißer

Diese Transformation erkennt und behebt Ausreißer in numerischen Features unter Verwendung oberer und unterer Schwellenwerte. Verwenden Sie diese Methode, wenn Sie Schwellenwerte kennen, die Ausreißer kennzeichnen.

Sie geben einOberer Schwellwertund einUnterer Schwellwert, und wenn Werte über oder unter diese Schwellenwerte fallen, gelten sie als Ausreißer.

DieFix-Methodeist die Methode, mit der Ausreißer behandelt werden, wenn sie erkannt werden. Sie können aus den folgenden Optionen auswählen:

  • Clip: Verwenden Sie diese Option, um die Ausreißer an die entsprechende Ausreißererkennung zu beschneiden.

  • Remove: Verwenden Sie diese Option, um Zeilen mit Ausreißer aus dem Datenrahmen zu entfernen.

  • Invalidate: Verwenden Sie diese Option, um Ausreißer durch ungültige Werte zu ersetzen.

Ersetzen Rare

Wenn Sie dieErsetzen Sie seltentransformieren, geben Sie einen Schwellenwert an und Data Wrangler findet alle Werte, die diesen Schwellenwert erfüllen, und ersetzt sie durch eine von Ihnen angegebene Zeichenfolge. Beispielsweise möchten Sie diese Transformation verwenden, um alle Ausreißer in einer Spalte in eine Kategorie „Andere“ zu kategorisieren.

  • Ersatz-Zeichenfolge: Die Zeichenfolge, durch die Ausreißer ersetzt werden sollen.

  • Absoluter Schwellwert: Eine Kategorie ist selten, wenn die Anzahl der Instanzen diesem absoluten Schwellenwert entspricht.

  • Bruchschwelle: Eine Kategorie ist selten, wenn die Anzahl der Instanzen kleiner oder gleich diesem Bruchschwellenwert multipliziert mit der Anzahl der Zeilen ist.

  • Max gemeinsame Kategorien: Maximale nicht seltene Kategorien, die nach der Operation verbleiben. Wenn der Schwellenwert nicht genügend Kategorien filtert, werden diejenigen mit der höchsten Anzahl von Auftritten als nicht selten eingestuft. Wenn auf 0 festgelegt (Standard), gibt es keine feste Begrenzung für die Anzahl der Kategorien.

Umgang mit fehlenden Werten

Fehlende Werte treten häufig in Datasets für maschinelles Lernen auf. In einigen Situationen ist es angebracht, fehlende Daten mit einem berechneten Wert, z. B. einem durchschnittlichen oder kategorisch gemeinsamen Wert, anzuschreiben. Sie können fehlende Werte mit demBehandle fehlende WerteTransform group. Diese Gruppe enthält die folgenden Transformationen.

Fill Fehlend

Verwenden derFehlender Füllbereichtransformieren, um fehlende Werte durch eineFill Valuedu definierst.

Fehlendes Anfechten

Verwenden derFehlendes Anfechtentransformieren, um eine neue Spalte zu erstellen, die kalkulatorische Werte enthält, bei denen fehlende Werte in kategorischen und numerischen Eingabedaten gefunden wurden. Die Konfiguration ist abhängig von Ihrem Datentyp.

Wählen Sie für numerische Daten eine Zurechnungsstrategie aus, die Strategie, mit der der neue Wert bestimmt werden soll, der angefochten werden soll. Sie können den Mittelwert oder den Median über die Werte, die in Ihrem Datensatz vorhanden sind, angeben. Data Wrangler verwendet den Wert, den er berechnet, um die fehlenden Werte anzugeben.

Für kategoriale Daten impliziert Data Wrangler fehlende Werte mit dem häufigsten Wert in der Spalte. Um eine benutzerdefinierte Zeichenfolge anzuweisen, verwenden Sie dieFehlender FüllbereichTransformieren Sie stattdessen.

Indikator für Fehlende hinzufügen

Verwenden derIndikator für Fehlende hinzufügentransformieren, um eine neue Indikatorspalte zu erstellen, die einen booleschen Wert enthält"false"wenn eine Zeile einen Wert enthält, und"true"wenn eine Zeile einen fehlenden Wert enthält.

Fehlender Drop

Verwenden derFehlender DropOption zum Löschen von Zeilen, die fehlende Werte enthaltenEingabe-Spalteaus.

Verwalten von Spalten

Sie können die folgenden Transformationen verwenden, um Spalten in Ihrem Datensatz schnell zu aktualisieren und zu verwalten:

Name Funktion
Drop column Löscht eine Spalte.
Doppelte Spalte Duplizieren einer Spalte.
Benennen Sie Spalte um Benennen Sie eine Spalte um.
Verschieben einer Spalte

Verschieben Sie den Speicherort einer Spalte im Dataset. Verschieben Sie Ihre Spalte an den Anfang oder Ende des Datensatzes, vor oder nach einer Referenzspalte oder in einen bestimmten Index.

Verwalten von Zeilen

Verwenden Sie diese Transformationsgruppe, um schnell Sortier- und Mischvorgänge für Zeilen durchzuführen. Diese Gruppe enthält Folgendes:

  • Sortierung: Sortieren Sie den gesamten Datenrahmen nach einer bestimmten Spalte. Aktivieren Sie das Kontrollkästchen nebenAufsteigende Reihenfolgefür diese Option; andernfalls deaktivieren Sie das Kontrollkästchen und die absteigende Reihenfolge wird für die Sortierung verwendet.

  • Shuffle: Mischen Sie nach dem Zufallsprinzip alle Zeilen im Datensatz.

Verwalten von Vektoren

Verwenden Sie diese Transformationsgruppe, um Vektorspalten zu kombinieren oder abzuflachen. Diese Gruppe enthält die folgenden Transformationen.

  • Zusammenbauen: Verwenden Sie diese Transformation, um Spark-Vektoren und numerische Daten in einer einzigen Spalte zu kombinieren. Sie können beispielsweise drei Spalten kombinieren: zwei mit numerischen Daten und eine mit Vektoren. Fügen Sie alle Spalten hinzu, in denen Sie kombinieren möchtenEingabe-Spaltenund geben Sie einAusgabespaltefür die kombinierten Daten.

  • Flatten: Verwenden Sie diese Transformation, um eine einzelne Spalte mit Vektordaten abzuflachen. Die Eingabespalte muss enthalten PySpark Vektoren oder array-ähnliche Objekte. Sie können die Anzahl der erstellten Spalten steuern, indem Sie einMethode zur Erkennung der Anzahl von Ausgabenaus. Wenn Sie beispielsweise auswählenLänge des ersten Vektorsbestimmt die Anzahl der Elemente im ersten gültigen Vektor oder Array in der Spalte die Anzahl der erstellten Ausgabespalten. Alle anderen Eingabevektoren mit zu vielen Elementen werden abgeschnitten. Eingaben mit zu wenigen Items sind mit NaNs gefüllt.

    Sie geben auch einAusgabespräfix, das als Präfix für jede Ausgabespalte verwendet wird.

Verarbeiten Numerischer Wert

Verwenden derVerarbeiten Numerischer WertFeature-Gruppe zur Verarbeitung numerischer Daten. Jeder Skalar in dieser Gruppe wird mit der Spark-Library definiert. Die folgenden Skalare werden unterstützt:

  • Standard-Scaler: Standardisieren Sie die Eingabespalte, indem Sie den Mittelwert von jedem Wert subtrahieren und die Einheitenvarianz skalieren. Weitere Informationen finden Sie in der Spark-Dokumentation fürStandardScaleraus.

  • Robuster Scaler: Skalieren Sie die Eingabespalte mit Statistiken, die für Ausreißer robust sind. Weitere Informationen finden Sie in der Spark-Dokumentation fürRobustScaleraus.

  • Min Max Scaler: Transformieren Sie die Eingabespalte, indem Sie jedes Feature auf einen bestimmten Bereich skalieren. Weitere Informationen finden Sie in der Spark-Dokumentation fürMinmaxScaleraus.

  • Maximaler Absoluter Scaler: Skalieren Sie die Eingabespalte, indem Sie jeden Wert durch den maximalen Absolutwert dividieren. Weitere Informationen finden Sie in der Spark-Dokumentation fürMaxabsScaleraus.

Sampling

Nachdem Sie Ihre Daten importiert haben, können Sie dieSamplingTransformator, um eine oder mehrere Proben davon zu nehmen. Wenn Sie den Sampling-Transformator verwenden, probt Data Wrangler Ihren ursprünglichen Datensatz.

Sie können eine der folgenden Beispielmethoden auswählen:

  • Limit— Beispielt den Datensatz von der ersten Zeile bis zum von Ihnen angegebenen Limit.

  • Randomisiert— Nimmt eine Zufallsstichprobe einer von Ihnen angegebenen Größe an.

  • Stratifiziert— Nimmt eine geschichtete Zufallsstichprobe.

Sie können ein randomisiertes Beispiel schichten, um sicherzustellen, dass es die ursprüngliche Verteilung des Datensatzes darstellt.

Möglicherweise führen Sie die Datenvorbereitung für mehrere Anwendungsfälle durch. Für jeden Anwendungsfall können Sie ein anderes Beispiel nehmen und einen anderen Satz von Transformationen anwenden.

Das folgende GIF zeigt ein Beispiel für die Aufnahme einesRandomisiert-Beispiel und einStratifiziert-Beispiel aus einem Datensatz.

Im folgenden Verfahren wird beschrieben, wie eine Zufallsstichprobe erstellt wird. Das vorhergehende GIF zeigt die Schritte, die in der Prozedur verwendet wurden.

Um eine Zufallsstichprobe aus Ihren Daten zu nehmen.

  1. Wählen Sie das Symbol+rechts neben dem Datensatz, den Sie importiert haben. Der Name Ihres Datensatzes befindet sich unter der+aus.

  2. Klicken Sie aufHinzufügen von Transformationaus.

  3. Wählen Sie Sampling aus.

  4. FürSampling-MethodeWählen Sie die Samplingmethode aus.

  5. FürUngefähre Stichprobengröße, wählen Sie die ungefähre Anzahl der Beobachtungen aus, die Sie in Ihrer Stichprobe wünschen.

  6. (Optional) Geben Sie eine Ganzzahl fürRandom Seed (Zufällige Seed)um eine reproduzierbare Probe zu erstellen.

Im folgenden Verfahren wird beschrieben, wie eine geschichtete Probe erstellt wird.

Um eine geschichtete Probe aus Ihren Daten zu entnehmen.

  1. Wählen Sie das Symbol+rechts neben dem Datensatz, den Sie importiert haben. Der Name Ihres Datensatzes befindet sich unter der+aus.

  2. Klicken Sie aufHinzufügen von Transformationaus.

  3. Wählen Sie Sampling aus.

  4. FürSampling-MethodeWählen Sie die Samplingmethode aus.

  5. FürUngefähre Stichprobengröße, wählen Sie die ungefähre Anzahl der Beobachtungen aus, die Sie in Ihrer Stichprobe wünschen.

  6. FürStratify columnGeben Sie den Namen der Spalte an, die Sie schichten möchten.

  7. (Optional) Geben Sie eine Ganzzahl fürRandom Seed (Zufällige Seed)um eine reproduzierbare Probe zu erstellen.

Suchen und Bearbeiten

Verwenden Sie diesen Abschnitt, um nach bestimmten Mustern innerhalb von Strings zu suchen und zu bearbeiten. Sie können beispielsweise Strings in Sätzen oder Dokumenten finden und aktualisieren, Strings nach Trennzeichen aufteilen und Vorkommen bestimmter Zeichenfolgen suchen.

Die folgenden Transformationen werden unterSuchen und bearbeitenaus. Alle Transformationen geben Kopien der Strings imEingabe-Spalteund fügen Sie das Ergebnis einer neuen Ausgabespalte hinzu.

Name Funktion

Finden Sie Teilzeichenfolge

Gibt den Index des ersten Vorkommens desSUBSTRINGnach dem Sie optional gesucht haben, starten und beenden Sie die Suche unterstartenundEndauflisten.

Substring suchen (von rechts)

Gibt den Index des letzten Vorkommens desSUBSTRINGnach dem Sie gesucht haben, optional die Suche starten und beenden unterstartenundEndauflisten.

Übereinstimmung mit dem Präfix

Gibt einen booleschen Wert zurück, wenn die Zeichenfolge einen bestimmten enthältPatternaus. Ein Muster kann eine Zeichensequenz oder ein regulärer Ausdruck sein. Optional können Sie bei dem Muster Groß- und Kleinschreibung berücksichtigen.

Finden aller Vorkommen

Gibt ein Array mit allen Vorkommen eines bestimmten Musters zurück. Ein Muster kann eine Zeichensequenz oder ein regulärer Ausdruck sein.

Extrahieren mit regex

Gibt eine Zeichenfolge zurück, die mit einem bestimmten Regex-Muster übereinstimmt.

Extrahieren Sie zwischen Trennzeichen

Gibt eine Zeichenfolge mit allen Zeichen zurück, die zwischenLinkes TrennzeichenundRechtes Trennzeichenaus.

Aus Position extrahieren

Gibt eine Zeichenfolge zurück, beginnend mitStartpositionin der Eingabezeichenfolge, die alle Zeichen bis zur Startposition enthält plusLängeaus.

Substring suchen und ersetzen

Gibt einen String mit allen Übereinstimmungen eines bestimmtenPattern(regulärer Ausdruck) ersetzt durchErsatz-Zeichenfolgeaus.

Zwischen Trennzeichen ersetzen

Gibt eine Zeichenfolge mit der Teilzeichenfolge zurück, die zwischen dem ersten Erscheinen einesLinkes Trennzeichenund der letzte Auftritt einesRechtes Trennzeichenersetzt durchErsatz-Zeichenfolgeaus. Wenn keine Übereinstimmung gefunden wird, wird nichts ersetzt.

Ersetzen von Position

Gibt einen String mit der Teilzeichenfolge zwischenStartpositionundStartpositionzzgl.Längeersetzt durchErsatz-Zeichenfolgeaus. WennStartpositionzzgl.LängeIst größer als die Länge der Ersetzungszeichenfolge, die Ausgabe enthält...aus.

Regex in fehlend umwandeln

Konvertiert eine Zeichenfolge inNonewenn ungültig und gibt das Ergebnis zurück. Die Gültigkeit wird mit einem regulären Ausdruck inPatternaus.

String nach Trennzeichen teilen

Gibt ein Array von Strings aus der Eingabezeichenfolge zurück, geteilt durchTrennzeichen, mit bis zuMaximale Anzahl von Splits(fakultativ). Standardmäßig wird Leerzeichen verwendet.

Wert als Typ analysieren

Verwenden Sie diese Transformation, um eine Spalte in einen neuen Typ umzuwandeln. Die unterstützten Data Wrangler-Datentypen sind:

  • Long

  • Gleitkommazahl

  • Boolesch

  • Datum im Format TT-mm-Jjjjj, das Tag, Monat und Jahr darstellt.

  • String (Zeichenfolge)

String validieren

Verwenden derZeichenfolge validierentransformiert, um eine neue Spalte zu erstellen, die angibt, dass eine Zeile mit Textdaten eine bestimmte Bedingung erfüllt. Sie können beispielsweise eineZeichenfolge validierentransformieren, um zu überprüfen, ob eine Zeichenfolge nur Kleinbuchstaben enthält. Die folgenden Transformationen werden unterZeichenfolge validierenaus.

Die folgenden Transformationen sind in dieser Transformationsgruppe enthalten. Wenn eine Transformation einen booleschen Wert ausgibt,Trueist mit einem1undFalseist mit einem0aus.

Name Funktion

Länge der Zeichenfolge

RückgabewerteTruewenn eine Stringlänge der angegebenen Länge entspricht. Gibt andernfalls False zurück.

Beginnt mit

RückgabewerteTruewenn eine Zeichenfolge beginnt, wird ein bestimmtes Präfix angezeigt. Gibt andernfalls False zurück.

Endet mit

RückgabewerteTruewenn eine Stringlänge der angegebenen Länge entspricht. Gibt andernfalls False zurück.

Ist alphanumerisch

RückgabewerteTruewenn eine Zeichenfolge nur Zahlen und Buchstaben enthält. Gibt andernfalls False zurück.

Ist Alpha (Buchstaben)

RückgabewerteTruewenn eine Zeichenfolge nur Buchstaben enthält. Gibt andernfalls False zurück.

Ist Digit

RückgabewerteTruewenn eine Zeichenfolge nur Ziffern enthält. Gibt andernfalls False zurück.

Ist Space

RückgabewerteTruewenn eine Zeichenfolge nur Zahlen und Buchstaben enthält. Gibt andernfalls False zurück.

Ist Titel

RückgabewerteTruewenn eine Zeichenfolge Leerzeichen enthält. Gibt andernfalls False zurück.

Ist Kleinbuchstaben

RückgabewerteTruewenn eine Zeichenfolge nur Kleinbuchstaben enthält. Gibt andernfalls False zurück.

Ist Großschreibung

RückgabewerteTruewenn eine Zeichenfolge nur Großbuchstaben enthält. Gibt andernfalls False zurück.

Ist Numerischer Wert

RückgabewerteTruewenn eine Zeichenfolge nur Zahlen enthält. Gibt andernfalls False zurück.

Ist Dezimalwerte

RückgabewerteTruewenn eine Zeichenfolge nur Dezimalzahlen enthält. Gibt andernfalls False zurück.

Unnest JSON-Daten

Wenn Sie eine .csv-Datei haben, haben Sie möglicherweise Werte in Ihrem Datensatz, die JSON-Strings sind. Ebenso haben Sie möglicherweise Daten in Spalten einer Parkett-Datei oder eines JSON-Dokuments verschachtelt.

Verwenden derAbflachen strukturiertOperator, um die Schlüssel der ersten Ebene in separate Spalten zu trennen. Ein Schlüssel der ersten Ebene ist ein Schlüssel, der nicht innerhalb eines Wertes verschachtelt ist.

Beispielsweise könnten Sie über einen Datensatz verfügen, der überPersonSpalte mit demografischen Informationen zu jeder Person, die als JSON-Strings gespeichert ist. Eine JSON-Zeichenfolge könnte wie folgt aussehen.

"{"seq": 1,"name": {"first": "Nathaniel","last": "Ferguson"},"age": 59,"city": "Posbotno","state": "WV"}"

DieFlatten strukturiertoperator wandelt die folgenden Schlüssel der ersten Ebene in zusätzliche Spalten in Ihrem Datensatz um:

  • seq

  • Name

  • Alter

  • city

  • state

Data Wrangler legt die Werte der Schlüssel als Werte unter die Spalten. Im Folgenden werden die Spaltennamen und Werte des JSON dargestellt.

seq, name, age, city, state 1, {"first": "Nathaniel","last": "Ferguson"}, 59, Posbotno, WV

Für jeden Wert in Ihrem Datensatz, der JSON enthält, wird derAbflachen strukturiertOperator erstellt Spalten für die Schlüssel der ersten Ebene. Um Spalten für verschachtelte Schlüssel zu erstellen, rufen Sie den Operator erneut auf. Für das vorhergehende Beispiel werden beim Aufrufen des Operators die Spalten erstellt:

  • name_first

  • name_last

Das folgende Beispiel zeigt den Datensatz, der sich aus dem erneuten Aufruf der Operation ergibt.

seq, name, age, city, state, name_first, name_last 1, {"first": "Nathaniel","last": "Ferguson"}, 59, Posbotno, WV, Nathaniel, Ferguson

Klicken Sie aufTasten zum Abflachenum die Schlüssel der ersten Ebene anzugeben, die als separate Spalten extrahiert werden sollen. Wenn Sie keine Schlüssel angeben, extrahiert Data Wrangler standardmäßig alle Schlüssel.

Explode-Array

Verwenden vonExplode-Arrayum die Werte des Arrays in separate Ausgabezeilen zu erweitern. Beispielsweise kann die Operation jeden Wert im Array [[1, 2, 3,], [4, 5, 6], [7, 8, 9]] annehmen und eine neue Spalte mit den folgenden Zeilen erstellen:

[1, 2, 3] [4, 5, 6] [7, 8, 9]

Data Wrangler nennt die neue Spalte input_column_name_flatten.

Rufen Sie dieExplode-Array-Vorgang mehrmals, um die verschachtelten Werte des Arrays in separate Ausgabespalten zu erhalten. Das folgende Beispiel zeigt das Ergebnis des mehrfachen Aufrufs des Vorgangs für ein Dataset mit einem verschachtelten Array.

Einfügen der Werte eines verschachtelten Arrays in separate Spalten
ID Array ID array_items ID array_items_items
1 [[Katze, Hund], [Fledermaus, Frosch]] 1 [Katze, Hund] 1 cat
2

[[Rose, Petunie], [Lilie, Gänseblümchen]]

1 [Fledermaus, Frosch] 1 Hund
2 [Rose, Petunie] 1 bat
2 [Lilie, Gänseblümchen] 1 Frosch
2 2 Rose
2 2 Petunie
2 2 Lilie
2 2 Gänseblümchen