Bereiten Sie Daten mit erweiterten Transformationen vor - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Bereiten Sie Daten mit erweiterten Transformationen vor

Anmerkung

Sie können erweiterte Transformationen nur für Modelle verwenden, die auf tabellarischen Datensätzen basieren. Textvorhersagemodelle mit mehreren Kategorien sind ebenfalls ausgeschlossen.

Ihr Datensatz für Machine Learning erfordert möglicherweise eine Datenvorbereitung, bevor Sie Ihr Modell erstellen. Möglicherweise möchten Sie Ihre Daten aufgrund verschiedener Probleme bereinigen, zu denen auch fehlende Werte oder Ausreißer gehören können, und Feature-Engineering durchführen, um die Genauigkeit Ihres Modells zu verbessern. Amazon SageMaker Canvas bietet ML-Datentransformationen, mit denen Sie Ihre Daten bereinigen, transformieren und für die Modellerstellung vorbereiten können. Sie können diese Transformationen für Ihre Datensätze ohne Code verwenden. SageMaker Canvas fügt die von Ihnen verwendeten Transformationen dem Model-Rezept hinzu. Dabei handelt es sich um eine Aufzeichnung der Datenvorbereitung, die vor der Erstellung des Modells an Ihren Daten vorgenommen wurde. Alle Datentransformationen, die Sie verwenden, ändern nur die Eingabedaten für die Modellerstellung und ändern nicht Ihre ursprüngliche Datenquelle.

Die folgenden Transformationen sind in SageMaker Canvas verfügbar, damit Sie Ihre Daten für die Erstellung vorbereiten können.

Anmerkung

Die Vorschau Ihres Datensatzes zeigt die ersten 100 Zeilen des Datensatzes. Wenn Ihr Datensatz mehr als 20.000 Zeilen enthält, nimmt Canvas eine Zufallsstichprobe von 20.000 Zeilen und zeigt eine Vorschau der ersten 100 Zeilen aus dieser Stichprobe an. Sie können nur nach Werten aus den in der Vorschau angezeigten Zeilen suchen und diese angeben, und die Filterfunktion filtert nur die in der Vorschau angezeigten Zeilen und nicht den gesamten Datensatz.

Spalten abwerfen

Sie können eine Spalte aus Ihrem Modell-Build ausschließen, indem Sie sie auf der Registerkarte Build der SageMaker Canvas-Anwendung ablegen. Deaktivieren Sie die Spalte, die Sie löschen möchten, und sie wird beim Erstellen des Modells nicht berücksichtigt.

Anmerkung

Wenn Sie Spalten löschen und dann Batch-Vorhersagen mit Ihrem Modell treffen, fügt SageMaker Canvas die gelöschten Spalten wieder dem Ausgabedatensatz hinzu, der für Sie zum Herunterladen verfügbar ist. SageMaker Canvas fügt die gelöschten Spalten für Zeitreihenmodelle jedoch nicht wieder hinzu.

Zeilen filtern

Die Filterfunktion filtert die in der Vorschau angezeigten Zeilen (die ersten 100 Zeilen Ihres Datensatzes) gemäß den von Ihnen angegebenen Bedingungen. Das Filtern von Zeilen erzeugt eine temporäre Vorschau der Daten und hat keine Auswirkungen auf die Modellerstellung. Sie können filtern, um eine Vorschau von Zeilen anzuzeigen, die fehlende Werte enthalten, Ausreißer enthalten oder benutzerdefinierte Bedingungen in einer von Ihnen ausgewählten Spalte erfüllen.

Filtern Sie Zeilen nach fehlenden Werten

Fehlende Werte treten häufig in maschinellen Lerndatensätzen auf. Wenn Sie Zeilen mit Nullwerten oder leeren Werten in bestimmten Spalten haben, möchten Sie möglicherweise nach diesen Zeilen filtern und eine Vorschau anzeigen.

Um fehlende Werte aus den in der Vorschau angezeigten Daten zu filtern, führen Sie die folgenden Schritte aus.

  1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte Erstellen die Option Nach Zeilen filtern ( Filter icon in the SageMaker Canvas application. ) aus.

  2. Wählen Sie die Spalte aus, die Sie auf fehlende Werte überprüfen möchten.

  3. Wählen Sie für die Operation die Option Fehlt aus.

SageMaker Canvas filtert nach Zeilen, die fehlende Werte in der ausgewählten Spalte enthalten, und bietet eine Vorschau der gefilterten Zeilen.

Screenshot des Vorgangs „Filtern nach fehlenden Werten“ in der SageMaker Canvas-Anwendung.

Zeilen nach Ausreißern filtern

Ausreißer oder seltene Werte in der Verteilung und im Bereich Ihrer Daten können sich negativ auf die Modellgenauigkeit auswirken und zu längeren Erstellungszeiten führen. SageMaker Mit Canvas können Sie Zeilen erkennen und filtern, die Ausreißer in numerischen Spalten enthalten. Sie können wählen, ob Sie Ausreißer entweder mit Standardabweichungen oder einem benutzerdefinierten Bereich definieren möchten.

Um nach Ausreißern in Ihren Daten zu filtern, führen Sie die folgenden Schritte aus.

  1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte Erstellen die Option Nach Zeilen filtern ( Filter icon in the SageMaker Canvas application. ) aus.

  2. Wählen Sie die Spalte aus, die Sie auf Ausreißer überprüfen möchten.

  3. Wählen Sie für die Operation Ist ein Ausreißer.

  4. Stellen Sie den Bereich für Ausreißer entweder auf Standardabweichung oder Benutzerdefinierter Bereich ein.

  5. Wenn Sie Standardabweichung wählen, geben Sie einen SD-Wert (Standardabweichung) zwischen 1–3 an. Wenn Sie Benutzerdefinierter Bereich wählen, wählen Sie entweder Perzentil oder Zahl und geben Sie dann die Min – und Max Werte an.

Mit der Option Standardabweichung werden Ausreißer in numerischen Spalten anhand des Mittelwerts und der Standardabweichung erkannt und danach gefiltert. Sie geben die Anzahl der Standardabweichungen an, bei denen ein Wert vom Mittelwert abweichen muss, um als Ausreißer betrachtet zu werden. Wenn Sie beispielsweise 3 für SD angeben, muss ein Wert um mehr als 3 Standardabweichungen vom Mittelwert abweichen, um als Ausreißer betrachtet zu werden.

Mit der Option Benutzerdefinierter Bereich werden Ausreißer in numerischen Spalten anhand von Minimal- und Maximalwerten erkannt und danach gefiltert. Verwenden Sie diese Methode, wenn Sie Ihre Schwellenwerte zur Begrenzung von Ausreißern kennen. Sie können den Typ des Bereichs entweder auf Perzentil oder Zahl festlegen. Wenn Sie Perzentil wählen, sollten die Werte Min und Max dem Minimum und Maximum des Perzentilbereichs (0-100) entsprechen, den Sie zulassen möchten. Wenn Sie Zahl wählen, sollten die Min – und Max Werte die minimalen und maximalen numerischen Werte sein, die Sie in den Daten filtern möchten.

Screenshot des Vorgangs „Nach Ausreißern filtern“ in der SageMaker Canvas-Anwendung.

Filtern Sie Zeilen nach benutzerdefinierten Werten

Sie können nach Zeilen mit Werten filtern, die benutzerdefinierte Bedingungen erfüllen. Möglicherweise möchten Sie eine Vorschau von Zeilen mit einem Preiswert von mehr als 100 anzeigen, bevor Sie sie entfernen. Mit dieser Funktion können Sie Zeilen filtern, die den von Ihnen festgelegten Schwellenwert überschreiten, und eine Vorschau der gefilterten Daten anzeigen.

Um die benutzerdefinierte Filterfunktion zu verwenden, führen Sie die folgenden Schritte aus.

  1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte Erstellen die Option Nach Zeilen filtern ( Filter icon in the SageMaker Canvas application. ) aus.

  2. Wählen Sie die Spalte aus, die Sie überprüfen möchten.

  3. Wählen Sie den Operationstyp aus, den Sie verwenden möchten, und geben Sie dann die Werte für die ausgewählte Bedingung an.

Für die Operation können Sie eine der folgenden Optionen wählen. Beachten Sie, dass die verfügbaren Operationen vom Datentyp der ausgewählten Spalte abhängen. Beispielsweise können Sie keine is greater than Operation für eine Spalte erstellen, die Textwerte enthält.

Operation Unterstützte Datentypen Unterstützter Feature-Typ Funktion

ist gleich

Numerisch, Text

Binär, kategorisch

Filtert Zeilen, in denen der Wert in Spalte den von Ihnen angegebenen Werten entspricht.

Ist nicht gleich

Numerisch, Text

Binär, kategorisch

Filtert Zeilen, in denen der Wert in Spalte nicht den von Ihnen angegebenen Werten entspricht.

Ist kleiner als

Numerischer Wert

N/A

Filtert Zeilen, in denen der Wert in Spalte kleiner als der von Ihnen angegebene Wert ist.

Ist kleiner als oder gleich

Numerischer Wert

N/A

Filtert Zeilen, in denen der Wert in Spalte kleiner oder gleich dem von Ihnen angegebenen Wert ist.

Ist größer als

Numerischer Wert

N/A

Filtert Zeilen, in denen der Wert in Spalte größer als der von Ihnen angegebene Wert ist.

Ist größer als oder gleich

Numerischer Wert

N/A

Filtert Zeilen, in denen der Wert in Spalte größer oder gleich dem von Ihnen angegebenen Wert ist.

Ist zwischen

Numerischer Wert

N/A

Filtert Zeilen, in denen der Wert in Spalte zwischen oder gleich zwei von Ihnen angegebenen Werten liegt.

Enthält

Text

Kategorisch

Filtert Zeilen, in denen der Wert in Spalte die von Ihnen angegebenen Werte enthält.

Beginnt mit

Text

Kategorisch

Filtert Zeilen, in denen der Wert in Spalte mit einem von Ihnen angegebenen Wert beginnt.

Endet mit

Kategorisch

Kategorisch

Filtert Zeilen, in denen der Wert in Spalte mit einem von Ihnen angegebenen Wert endet.

Nachdem Sie den Filtervorgang festgelegt haben, aktualisiert SageMaker Canvas die Vorschau des Datensatzes, sodass Ihnen die gefilterten Daten angezeigt werden.

Screenshot des Vorgangs „Filtern nach benutzerdefinierten Werten“ in der SageMaker Canvas-Anwendung.

Funktionen und Operatoren

Sie können mathematische Funktionen und Operatoren verwenden, um Ihre Daten zu untersuchen und zu verteilen. Sie können die von SageMaker Canvas unterstützten Funktionen verwenden oder Ihre eigene Formel mit Ihren vorhandenen Daten erstellen und eine neue Spalte mit dem Ergebnis der Formel erstellen. Sie können beispielsweise die entsprechenden Werte von zwei Spalten hinzufügen und das Ergebnis in einer neuen Spalte speichern.

Sie können Anweisungen verschachteln, um komplexere Funktionen zu erstellen. Im Folgenden finden Sie einige Beispiele für verschachtelte Funktionen, die Sie verwenden könnten.

  • Um den BMI zu berechnen, könnten Sie die Funktion weight / (height ^ 2) verwenden.

  • Um das Alter zu klassifizieren, könnten Sie die Funktion Case(age < 18, 'child', age < 65, 'adult', 'senior') verwenden.

Sie können Funktionen in der Datenvorbereitungsphase angeben, bevor Sie Ihr Modell erstellen. Um eine Funktion zu verwenden, gehen Sie wie folgt vor.

  • Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte „Erstellen“ die Option „Alle anzeigen“ und anschließend „Benutzerdefinierte Formel“, um das Bedienfeld „Benutzerdefinierte Formel“ zu öffnen.

  • Im Bedienfeld „Benutzerdefinierte Formel“ können Sie eine Formel auswählen, die Sie Ihrem Modellrezept hinzufügen möchten. Jede Formel wird auf alle Werte in den von Ihnen angegebenen Spalten angewendet. Verwenden Sie für Formeln, die zwei oder mehr Spalten als Argumente akzeptieren, Spalten mit übereinstimmenden Datentypen. Andernfalls erhalten Sie einen Fehler oder null Werte in der neuen Spalte.

  • Nachdem Sie eine Formel angegeben haben, fügen Sie im Feld Neuer Spaltenname einen Spaltennamen hinzu. SageMaker Canvas verwendet diesen Namen für die neue Spalte, die erstellt wird.

  • (Optional) Wählen Sie Vorschau, um eine Vorschau Ihrer Transformation anzuzeigen.

  • Um die Funktion zu Ihrem Modellrezept hinzuzufügen, wählen Sie Hinzufügen.

SageMaker Canvas speichert das Ergebnis Ihrer Funktion in einer neuen Spalte unter dem Namen, den Sie unter Neuer Spaltenname angegeben haben. Sie können Funktionen im Bedienfeld Modellrezepte anzeigen oder entfernen.

SageMaker Canvas unterstützt die folgenden Operatoren für Funktionen. Sie können entweder das Textformat oder das Inline-Format verwenden, um Ihre Funktion zu spezifizieren.

Operator Beschreibung Unterstützte Datentypen Textformat Inline-Format

Addition

Gibt die Summe der Werte

Numerischer Wert

Addieren Sie (Umsatz1, Umsatz2)

Umsatz1 + Umsatz2

Subtraktion

Gibt den Unterschied zwischen den Werten zurück

Numerischer Wert

Subtrahieren Sie (Umsatz1, Umsatz2)

Umsatz1 ‐ Umsatz2

Multiply (Multiplikation)

Gibt das Produkt der Werte zurück

Numerischer Wert

Multipliziere (Umsatz1, Umsatz2)

Umsatz1 * Umsatz2

Division

Gibt den Quotienten der Werte zurück

Numerischer Wert

Divide (Umsatz1, Umsatz2)

Umsatz1//Umsatz2

Mod

Gibt das Ergebnis des Modulo-Operators zurück (den Rest nach der Division der beiden Werte)

Numerischer Wert

Mod (Umsatz1, Umsatz2)

Umsatz 1% Umsatz 2

Abs

Gibt den absoluten Wert des Wertes zurück

Numerischer Wert

Abs (Umsatz1)

N/A

Negiert

Gibt das Negative des Werts zurück

Numerischer Wert

Negiere (c1)

-c1

Exp

Gibt e (Eulersche Zahl) potenziert mit dem Wert zurück

Numerischer Wert

Exp (Umsatz1)

N/A

Protokoll

Gibt den Logarithmus (Basis 10) des Wertes

Numerischer Wert

Protokoll (Umsatz1)

N/A

Ln

Gibt den natürlichen Logarithmus (Basis e) des Werts zurück

Numerischer Wert

Ln (Umsatz1)

N/A

pow

Gibt den potenzierten Wert zurück

Numerischer Wert

Pow (Umsatz1, 2)

Umsatz1 ^ 2

Wenn

Gibt basierend auf einer von Ihnen angegebenen Bedingung eine Bezeichnung „wahr“ oder „falsch“ zurück

Boolescher Wert, Numerisch, Text

Wenn (sales1>7000, 'truelabel', 'falselabel')

N/A

Oder

Gibt einen booleschen Wert zurück, der angibt, ob einer der angegebenen Werte oder Bedingungen wahr ist oder nicht

Boolesch

Oder (Vollpreis, discount)

Vollpreis || Rabatt

And

Gibt einen booleschen Wert zurück, der angibt, ob zwei der angegebenen Werte oder Bedingungen wahr sind oder nicht

Boolesch

Und (Umsatz1, Umsatz2)

Umsatz1 && Umsatz2

Nicht

Gibt einen booleschen Wert zurück, der dem angegebenen Wert oder den angegebenen Bedingungen entgegengesetzt ist

Boolesch

Nicht (sales1)

!Umsatz 1

Case

Gibt einen booleschen Wert zurück, der auf bedingten Anweisungen basiert (gibt c1 zurück, wenn cond1 wahr ist, gibt c2 zurück, wenn cond2 wahr ist, andernfalls wird c3 zurückgegeben)

Boolescher Wert, Numerisch, Text

Groß- und Kleinschreibung (cond1, c1, cond2, c2, c3)

N/A

Gleich

Gibt einen booleschen Wert zurück, der angibt, ob zwei Werte gleich sind

Boolescher Wert, Numerisch, Text

N/A

c1 = c2

c1 == c2

Ungleich

Gibt einen booleschen Wert zurück, der angibt, ob zwei Werte nicht gleich sind

Boolescher Wert, Numerisch, Text

N/A

c1 != c2

kleiner als

Gibt einen booleschen Wert zurück, der angibt, ob c1 kleiner als c2 ist

Boolescher Wert, Numerisch, Text

N/A

c1 < c2

größer als

Gibt einen booleschen Wert zurück, der angibt, ob c1 größer als c2 ist

Boolescher Wert, Numerisch, Text

N/A

c1 > c2

Kleiner als oder gleich

Gibt einen booleschen Wert zurück, der angibt, ob c1 kleiner oder gleich c2 ist

Boolescher Wert, Numerisch, Text

N/A

c1 <= c2

Größer als oder gleich

Gibt einen booleschen Wert zurück, der angibt, ob c1 größer oder gleich c2 ist

Boolescher Wert, Numerisch, Text

N/A

c1 >= c2

SageMaker Canvas unterstützt auch Aggregatoperatoren, mit denen Operationen wie das Berechnen der Summe aller Werte oder das Ermitteln des Minimalwerts in einer Spalte ausgeführt werden können. Sie können Aggregatoperatoren in Kombination mit Standardoperatoren in Ihren Funktionen verwenden. Um beispielsweise die Differenz zwischen Werten und dem Mittelwert zu berechnen, könnten Sie die Funktion verwendenAbs(height – avg(height)). SageMaker Canvas unterstützt die folgenden Aggregatoperatoren.

Aggregat-Operatoren Beschreibung Format Beispiel

sum

Gibt die Summe aller Werte in einer Spalte zurück

sum

Summe(c1)

Minimum

Gibt den Minimalwert einer Spalte zurück

min

min(c2)

Maximum

Gibt den Maximalwert einer Spalte zurück

max

max(c3)

Durchschnitt

Gibt den Durchschnittswert einer Spalte zurück

avg

avg(c4)

Std

Gibt die Standardabweichung der Stichprobe einer Spalte zurück

Std

std(c1)

stddev

Gibt die Standardabweichung der Werte in einer Spalte zurück

stddev

Stdabq(c1)

Varianz

Gibt die unverzerrte Varianz der Werte in einer Spalte zurück

Varianz

Varianz(c1)

APPROX_COUNT_DISTINCT

Gibt die ungefähre Anzahl verschiedener Elemente in einer Spalte zurück

APPROX_COUNT_DISTINCT

APPROX_COUNT_DISTINCT

count

Gibt den Cosinus einer Zahl zurück.

count

Anzahl(c1)

Erste

Gibt den ersten Wert einer Spalte zurück

Erste

zuerst(c1)

Letzte

Gibt den letzten Wert einer Spalte zurück

Letzte

letzter(c1)

stddev_pop

Gibt die Standardabweichung der Grundgesamtheit einer Spalte zurück

stddev_pop

stddev_pop(c1)

Varianz_Pop

Gibt die Populationsvarianz der Werte in einer Spalte zurück

variance_pop

variance_pop(c1)

Zeilen verwalten

Mit der Transformation „Zeilen verwalten“ können Sie Datenzeilen sortieren, nach dem Zufallsprinzip mischen und Datenzeilen aus dem Datensatz entfernen.

Zeilen sortieren

Gehen Sie wie folgt vor, um die Zeilen in einem Datensatz nach einer bestimmten Spalte zu sortieren.

  1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte Erstellen die Option Zeilen verwalten und anschließend Zeilen sortieren aus.

  2. Wählen Sie unter Spalte sortieren die Spalte aus, nach der Sie sortieren möchten.

  3. Wählen Sie für Sortierreihenfolge entweder Aufsteigend oder Absteigend aus.

  4. Wählen Sie Hinzufügen, um die Transformation zum Modellrezept hinzuzufügen.

Zeilen mischen

Gehen Sie wie folgt vor, um die Zeilen in einem Datensatz nach dem Zufallsprinzip zu mischen.

  1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte Erstellen die Option Zeilen verwalten und anschließend Zeilen mischen aus.

  2. Wählen Sie Hinzufügen, um die Transformation zum Modellrezept hinzuzufügen.

Doppelte Zeilen verwerfen

Gehen Sie wie folgt vor, um doppelte Zeilen in einem Datensatz zu entfernen.

  1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte Erstellen die Option Zeilen verwalten und anschließend Doppelte Zeilen löschen aus.

  2. Wählen Sie Hinzufügen, um die Transformation zum Modellrezept hinzuzufügen.

Entfernen Sie Zeilen nach fehlenden Werten

Fehlende Werte treten häufig in Datensätzen des maschinellen Lernens auf und können sich auf die Modellgenauigkeit auswirken. Verwenden Sie diese Transformation, wenn Sie Zeilen mit Nullwerten oder leeren Werten in bestimmten Spalten löschen möchten.

Gehen Sie wie folgt vor, um Zeilen zu entfernen, die fehlende Werte in einer bestimmten Spalte enthalten.

  1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte Erstellen die Option Zeilen verwalten aus.

  2. Wählen Sie Zeilen nach fehlenden Werten löschen aus.

  3. Wählen Sie Hinzufügen, um die Transformation zum Modellrezept hinzuzufügen.

SageMaker Canvas löscht Zeilen, die fehlende Werte in der ausgewählten Spalte enthalten. Nach dem Entfernen der Zeilen aus dem Datensatz fügt SageMaker Canvas die Transformation im Abschnitt Modellrezept hinzu. Wenn Sie die Transformation aus dem Abschnitt Modellrezept entfernen, kehren die Zeilen zu Ihrem Datensatz zurück.

Screenshot der Operation „Zeilen durch fehlende Werte entfernen“ in der SageMaker Canvas-Anwendung.

Zeilen nach Ausreißern entfernen

Ausreißer oder seltene Werte in der Verteilung und im Bereich Ihrer Daten können sich negativ auf die Modellgenauigkeit auswirken und zu längeren Erstellungszeiten führen. Mit SageMaker Canvas können Sie Zeilen erkennen und entfernen, die Ausreißer in numerischen Spalten enthalten. Sie können wählen, ob Sie Ausreißer entweder mit Standardabweichungen oder einem benutzerdefinierten Bereich definieren möchten.

Gehen Sie wie folgt vor, um Ausreißer aus Ihren Daten zu entfernen.

  1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte Erstellen die Option Zeilen verwalten aus.

  2. Wählen Sie Zeilen nach Ausreißerwerten löschen.

  3. Wählen Sie die Spalte aus, die Sie auf Ausreißer überprüfen möchten.

  4. Stellen Sie den Operator auf Standardabweichung, Benutzerdefinierter numerischer Bereich oder Benutzerdefinierter Quantilbereich ein.

  5. Wenn Sie Standardabweichung wählen, geben Sie einen Wert für Standardabweichungen (Standardabweichung) zwischen 1–3 an. Wenn Sie Benutzerdefinierter numerischer Bereich oder Benutzerdefinierter Quantilbereich wählen, geben Sie die Min und Max Werte an (Zahlen für numerische Bereiche oder Perzentile zwischen 0 und 100% für Quantilbereiche).

  6. Wählen Sie Hinzufügen, um die Transformation zum Modellrezept hinzuzufügen.

Mit der Option Standardabweichung werden Ausreißer in numerischen Spalten anhand des Mittelwerts und der Standardabweichung erkannt und entfernt. Sie geben die Anzahl der Standardabweichungen an, bei denen ein Wert vom Mittelwert abweichen muss, um als Ausreißer betrachtet zu werden. Wenn Sie beispielsweise 3 für Standardabweichungen angeben, muss ein Wert um mehr als 3 Standardabweichungen vom Mittelwert abweichen, um als Ausreißer betrachtet zu werden.

Mit den Optionen Benutzerdefinierter numerischer Bereich und Benutzerdefinierter Quantilbereich werden Ausreißer in numerischen Spalten anhand von Minimal- und Maximalwerten erkannt und entfernt. Verwenden Sie diese Methode, wenn Sie Ihre Schwellenwerte kennen, mit denen Ausreißer abgegrenzt werden. Wenn Sie einen numerischen Bereich wählen, sollten die Min – und Max Werte die minimalen und maximalen numerischen Werte sein, die Sie in den Daten zulassen möchten. Wenn Sie einen Quantilbereich wählen, sollten die Min und Max Werte den Mindest- und Höchstwerten des Perzentilbereichs (0–100) entsprechen, den Sie zulassen möchten.

Nach dem Entfernen der Zeilen aus dem Datensatz fügt SageMaker Canvas die Transformation im Abschnitt Modellrezept hinzu. Wenn Sie die Transformation aus dem Abschnitt Modellrezept entfernen, kehren die Zeilen zu Ihrem Datensatz zurück.

Screenshot der Operation „Zeilen nach Ausreißern entfernen“ in der SageMaker Canvas-Anwendung.

Zeilen anhand benutzerdefinierter Werte entfernen

Sie können Zeilen mit Werten entfernen, die benutzerdefinierte Bedingungen erfüllen. Beispielsweise möchten Sie beim Erstellen Ihres Modells möglicherweise alle Zeilen mit einem Preiswert von mehr als 100 ausschließen. Mit dieser Transformation können Sie eine Regel erstellen, die alle Zeilen entfernt, die den von Ihnen festgelegten Schwellenwert überschreiten.

Gehen Sie wie folgt vor, um die benutzerdefinierte Transformation zum Entfernen zu verwenden.

  1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte Erstellen die Option Zeilen verwalten aus.

  2. Wählen Sie Zeilen nach Formel löschen.

  3. Wählen Sie die Spalte aus, die Sie überprüfen möchten.

  4. Wählen Sie den Operationstyp aus, den Sie verwenden möchten, und geben Sie dann die Werte für die ausgewählte Bedingung an.

  5. Wählen Sie Hinzufügen, um die Transformation zum Modellrezept hinzuzufügen.

Für die Operation können Sie eine der folgenden Optionen wählen. Beachten Sie, dass die verfügbaren Operationen vom Datentyp der ausgewählten Spalte abhängen. Beispielsweise können Sie keine is greater than Operation für eine Spalte erstellen, die Textwerte enthält.

Operation Unterstützte Datentypen Unterstützter Feature-Typ Funktion

ist gleich

Numerisch, Text

Binär, kategorisch

Entfernt Zeilen, in denen der Wert in Spalte den von Ihnen angegebenen Werten entspricht.

Ist nicht gleich

Numerisch, Text

Binär, kategorisch

Entfernt Zeilen, in denen der Wert in Spalte nicht den von Ihnen angegebenen Werten entspricht.

Ist kleiner als

Numerischer Wert

N/A

Entfernt Zeilen, in denen der Wert in Spalte kleiner als der von Ihnen angegebene Wert ist.

Ist kleiner als oder gleich

Numerischer Wert

N/A

Entfernt Zeilen, in denen der Wert in Spalte kleiner oder gleich dem von Ihnen angegebenen Wert ist.

Ist größer als

Numerischer Wert

N/A

Entfernt Zeilen, in denen der Wert in Spalte größer als der von Ihnen angegebene Wert ist.

Ist größer als oder gleich

Numerischer Wert

N/A

Entfernt Zeilen, in denen der Wert in Spalte größer oder gleich dem von Ihnen angegebenen Wert ist.

Ist zwischen

Numerischer Wert

N/A

Entfernt Zeilen, in denen der Wert in Spalte zwischen oder gleich zwei von Ihnen angegebenen Werten liegt.

Enthält

Text

Kategorisch

Entfernt Zeilen, in denen der Wert in Column die von Ihnen angegebenen Werte enthält.

Beginnt mit

Text

Kategorisch

Entfernt Zeilen, in denen der Wert in Column mit einem von Ihnen angegebenen Wert beginnt.

Endet mit

Text

Kategorisch

Entfernt Zeilen, in denen der Wert in Column mit einem von Ihnen angegebenen Wert endet.

Nach dem Entfernen der Zeilen aus dem Datensatz fügt SageMaker Canvas die Transformation im Abschnitt Modellrezept hinzu. Wenn Sie die Transformation aus dem Abschnitt Modellrezept entfernen, kehren die Zeilen zu Ihrem Datensatz zurück.

Screenshot des Vorgangs „Zeilen mit benutzerdefinierten Werten entfernen“ in der SageMaker Canvas-Anwendung.

Spalten umbenennen

Mit der Transformation zum Umbenennen von Spalten können Sie Spalten in Ihren Daten umbenennen. Wenn Sie eine Spalte umbenennen, ändert SageMaker Canvas den Spaltennamen in der Modelleingabe.

Sie können eine Spalte in Ihrem Datensatz umbenennen, indem Sie auf der Registerkarte Erstellen der SageMaker Canvas-Anwendung auf den Spaltennamen doppelklicken und einen neuen Namen eingeben. Durch Drücken der Eingabetaste wird die Änderung übermittelt, und wenn Sie auf eine beliebige Stelle außerhalb der Eingabe klicken, wird die Änderung rückgängig gemacht. Sie können eine Spalte auch umbenennen, indem Sie auf das Symbol Weitere Optionen ( More options icon at the end of a row. ) klicken, das sich in der Listenansicht am Ende der Zeile oder in der Tabellenansicht am Ende der Kopfzeilenzelle befindet, und Umbenennen wählen.

Ihr Spaltenname darf nicht länger als 32 Zeichen sein oder doppelte Unterstriche (__) enthalten, und Sie können eine Spalte nicht in denselben Namen wie eine andere Spalte umbenennen. Sie können eine gelöschte Spalte auch nicht umbenennen.

Der folgende Screenshot zeigt, wie Sie eine Spalte umbenennen, indem Sie auf den Spaltennamen doppelklicken.

Screenshot des Umbenennens einer Spalte mit der Doppelklick-Methode in der SageMaker Canvas-Anwendung.

Wenn Sie eine Spalte umbenennen, fügt SageMaker Canvas die Transformation im Abschnitt Modellrezept hinzu. Wenn Sie die Transformation aus dem Abschnitt Modellrezept entfernen, nimmt die Spalte wieder ihren ursprünglichen Namen an.

Spalten verwalten

Mit den folgenden Transformationen können Sie den Datentyp von Spalten ändern und fehlende Werte oder Ausreißer für bestimmte Spalten ersetzen. SageMaker Canvas verwendet beim Erstellen Ihres Modells die aktualisierten Datentypen oder Werte, ändert jedoch nicht Ihren ursprünglichen Datensatz. Beachten Sie, dass Sie Werte in dieser Spalte nicht ersetzen können, wenn Sie mithilfe der Spalten abwerfen Transformation eine Spalte aus Ihrem Datensatz gelöscht haben.

Fehlende Werte ersetzen

Fehlende Werte treten häufig in Datensätzen des maschinellen Lernens auf und können sich auf die Modellgenauigkeit auswirken. Sie können sich dafür entscheiden, Zeilen mit fehlenden Werten zu löschen, aber Ihr Modell ist genauer, wenn Sie stattdessen die fehlenden Werte ersetzen. Mit dieser Transformation können Sie fehlende Werte in numerischen Spalten durch den Mittelwert oder Median der Daten in einer Spalte ersetzen, oder Sie können auch einen benutzerdefinierten Wert angeben, durch den fehlende Werte ersetzt werden sollen. Bei nicht numerischen Spalten können Sie fehlende Werte durch den Modus (den häufigsten Wert) der Spalte oder einen benutzerdefinierten Wert ersetzen.

Verwenden Sie diese Transformation, wenn Sie die Null- oder Leerwerte in bestimmten Spalten ersetzen möchten. Gehen Sie wie folgt vor, um fehlende Werte in einer bestimmten Spalte zu ersetzen.

  1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte Erstellen die Option Spalten verwalten aus.

  2. Wählen Sie Fehlende Werte ersetzen.

  3. Wählen Sie die Spalte aus, in der Sie fehlende Werte ersetzen möchten.

  4. Stellen Sie den Modus auf Manuell ein, um fehlende Werte durch von Ihnen angegebene Werte zu ersetzen. Mit der Einstellung Automatisch (Standard) ersetzt SageMaker Canvas fehlende Werte durch imputierte Werte, die am besten zu Ihren Daten passen. Diese Imputationsmethode wird automatisch für jede Modellerstellung durchgeführt, sofern Sie nicht den Modus Manuell angeben.

  5. Stellen Sie den Wert Ersetzen durch ein:

    • Wenn Ihre Spalte numerisch ist, wählen Sie Mittelwert, Median oder Benutzerdefiniert aus. Durch Mittelwert werden fehlende Werte durch den Mittelwert für die Spalte ersetzt, und Median ersetzt fehlende Werte durch den Median für die Spalte. Wenn Sie Benutzerdefiniert wählen, müssen Sie einen benutzerdefinierten Wert angeben, den Sie verwenden möchten, um fehlende Werte zu ersetzen.

    • Wenn Ihre Spalte nicht numerisch ist, wählen Sie Modus oder Benutzerdefiniert. Mode ersetzt fehlende Werte durch den Modus oder den gebräuchlichsten Wert für die Spalte. Geben Sie für Benutzerdefiniert einen benutzerdefinierten Wert an, den Sie verwenden möchten, um fehlende Werte zu ersetzen.

  6. Wählen Sie Hinzufügen, um die Transformation zum Modellrezept hinzuzufügen.

Nach dem Ersetzen der fehlenden Werte im Datensatz fügt SageMaker Canvas die Transformation im Abschnitt Modellrezept hinzu. Wenn Sie die Transformation aus dem Abschnitt Modellrezept entfernen, kehren die fehlenden Werte in den Datensatz zurück.

Screenshot des Vorgangs zum Ersetzen fehlender Werte in der SageMaker Canvas-Anwendung.

Ausreißer ersetzen

Ausreißer oder seltene Werte in der Verteilung und im Bereich Ihrer Daten können sich negativ auf die Modellgenauigkeit auswirken und zu längeren Erstellungszeiten führen. SageMaker Mit Canvas können Sie Ausreißer in numerischen Spalten erkennen und die Ausreißer durch Werte ersetzen, die innerhalb eines akzeptierten Bereichs in Ihren Daten liegen. Sie können wählen, ob Sie Ausreißer entweder mit Standardabweichungen oder einem benutzerdefinierten Bereich definieren möchten, und Sie können Ausreißer durch die Minimal- und Maximalwerte im akzeptierten Bereich ersetzen.

Um Ausreißer in Ihren Daten zu ersetzen, führen Sie die folgenden Schritte aus.

  1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte Erstellen die Option Spalten verwalten aus.

  2. Wählen Sie Ausreißerwerte ersetzen.

  3. Wählen Sie die Spalte, in der Sie Ausreißer ersetzen möchten.

  4. Wählen Sie für Ausreißer definieren die Optionen Standardabweichung, Benutzerdefinierter numerischer Bereich oder Benutzerdefinierter Quantilbereich aus.

  5. Wenn Sie Standardabweichung wählen, geben Sie einen Wert für Standardabweichungen (Standardabweichung) zwischen 1–3 an. Wenn Sie Benutzerdefinierter numerischer Bereich oder Benutzerdefinierter Quantilbereich wählen, geben Sie die Min und Max Werte an (Zahlen für numerische Bereiche oder Perzentile zwischen 0 und 100% für Quantilbereiche).

  6. Wählen Sie für Ersetzen durch den Min-/Max-Bereich aus.

  7. Wählen Sie Hinzufügen, um die Transformation zum Modellrezept hinzuzufügen.

Mit der Option Standardabweichung werden Ausreißer in numerischen Spalten anhand des Mittelwerts und der Standardabweichung erkannt. Sie geben die Anzahl der Standardabweichungen an, bei denen ein Wert vom Mittelwert abweichen muss, um als Ausreißer betrachtet zu werden. Wenn Sie beispielsweise 3 für Standardabweichungen angeben, muss ein Wert um mehr als 3 Standardabweichungen vom Mittelwert abweichen, um als Ausreißer betrachtet zu werden. SageMaker Canvas ersetzt Ausreißer durch den Minimal- oder Maximalwert im akzeptierten Bereich. Wenn Sie beispielsweise die Standardabweichungen so konfigurieren, dass sie nur Werte zwischen 200 und 300 enthalten, ändert SageMaker Canvas einen Wert von 198 auf 200 (das Minimum).

Die Optionen Benutzerdefinierter numerischer Bereich und Benutzerdefinierter Quantilbereich erkennen Ausreißer in numerischen Spalten anhand von Minimal- und Maximalwerten. Verwenden Sie diese Methode, wenn Sie Ihre Schwellenwerte kennen, mit denen Ausreißer abgegrenzt werden. Wenn Sie einen numerischen Bereich wählen, sollten die Min - und Max-Werte die minimalen und maximalen numerischen Werte sein, die Sie zulassen möchten. SageMaker Canvas ersetzt alle Werte, die außerhalb der Minimal- und Maximalwerte liegen, durch die Minimal- und Maximalwerte. Wenn Ihr Bereich beispielsweise nur Werte zwischen 1 und 100 zulässt, ändert SageMaker Canvas einen Wert von 102 auf 100 (das Maximum). Wenn Sie einen Quantilbereich wählen, sollten die Min – und Max Werte dem Minimum und Maximum des Perzentilbereichs (0–100) entsprechen, den Sie zulassen möchten.

Nach dem Ersetzen der Werte im Datensatz fügt SageMaker Canvas die Transformation im Abschnitt Modellrezept hinzu. Wenn Sie die Transformation aus dem Abschnitt Modellrezept entfernen, kehren die ursprünglichen Werte zum Datensatz zurück.

Screenshot des Vorgangs „Ausreißer ersetzen“ in der SageMaker Canvas-Anwendung.

Ändern des Datentyps

SageMaker Canvas bietet Ihnen die Möglichkeit, den Datentyp Ihrer Spalten zwischen numerisch, text und datetime zu ändern und gleichzeitig den zugehörigen Feature-Typ für diesen Datentyp anzuzeigen. Ein Datentyp bezieht sich auf das Format der Daten und die Art und Weise, wie sie gespeichert werden, während sich der Feature-Typ auf die Eigenschaften der Daten bezieht, die in Algorithmen für Machine Learning verwendet werden, z. B. binär oder kategorisch. Dies gibt Ihnen die Flexibilität, den Datentyp in Ihren Spalten basierend auf den Funktionen manuell zu ändern. Die Möglichkeit, den richtigen Datentyp auszuwählen, gewährleistet Datenintegrität und Genauigkeit, bevor Modelle erstellt werden. Diese Datentypen werden beim Erstellen von Modellen verwendet.

Anmerkung

Derzeit wird das Ändern des Feature-Typs (z. B. von binär zu kategorisch) nicht unterstützt.

In der folgenden Tabelle sind alle in Canvas unterstützten Datentypen aufgeführt.

Datentyp Beschreibung Beispiel

Numerischer Wert

Numerische Daten stehen für numerische Werte

1, 2, 3

1.1, 1.2. 1.3

Text

Textdaten stellen Zeichenfolgen wie Namen oder Beschreibungen dar

A, B, C, D

Apfel, Banane, Orange

1A! , 2A! , 3A!

DateTime

Datetime-Daten stellen Daten und Uhrzeiten im Zeitstempelformat dar

01.07.2019 01:00:00, 01.07.2019 02:00:00, 01.07.2019 03:00:00

Die folgende Tabelle führt alle unterstützten Feature-Typen in Canvas auf.

Feature-Typ Beschreibung Beispiel

Binär

Binäre Merkmale stellen zwei mögliche Werte dar

0, 1, 0, 1, 0 (2 verschiedene Werte)

wahr, falsch, wahr (2 unterschiedliche Werte)

Kategorisch

Kategoriale Merkmale stehen für unterschiedliche Kategorien oder Gruppen

Apfel, Banane, Orange, Apfel (3 unterschiedliche Werte)

A, B, C, D, E, A, D, C (5 verschiedene Werte)

Gehen Sie wie folgt vor, um den Datentyp einer Spalte in einem Datensatz zu ändern.

  1. Gehen Sie auf der Registerkarte Erstellen der SageMaker Canvas-Anwendung zur Spalten- oder Rasteransicht und wählen Sie das Drop-down-Menü Datentyp für die jeweilige Spalte aus.

  2. Wählen Sie in der Dropdown-Liste Datentyp den Datentyp aus, in den konvertiert werden soll. Der folgende Screenshot zeigt das Dropdown-Menü.

    Screenshot des Dropdown-Menüs zur Konvertierung von Datentypen für eine Spalte, das auf der Registerkarte Erstellen eines Modells in Canvas angezeigt wird.
  3. Wählen Sie unter Spalte die Spalte aus, für die Sie den Datentyp ändern möchten, oder überprüfen Sie sie.

  4. Wählen Sie unter Neuer Datentyp den neuen Datentyp aus, in den Sie konvertieren möchten, oder überprüfen Sie ihn.

  5. Wenn der neue Datentyp Datetime oder Numeric lautet, wählen Sie unter Ungültige Werte behandeln eine der folgenden Optionen aus:

    1. Durch leeren Wert ersetzen – Ungültige Werte werden durch einen leeren Wert ersetzt

    2. Zeilen löschen – Zeilen mit einem ungültigen Wert werden aus dem Datensatz entfernt

    3. Durch benutzerdefinierten Wert ersetzen – Ungültige Werte werden durch den von Ihnen angegebenen benutzerdefinierten Wert ersetzt.

  6. Wählen Sie Hinzufügen, um die Transformation zum Modellrezept hinzuzufügen.

Der Datentyp für Ihre Spalte sollte jetzt aktualisiert sein.

Bereitstellen von Zeitreihendaten

Verwenden Sie die folgenden Funktionen, um Ihre Zeitreihendaten für die Erstellung von Zeitreihen-Prognosemodellen vorzubereiten.

Abtastung von Zeitreihendaten

Durch das Resampling von Zeitreihendaten können Sie regelmäßige Intervalle für die Beobachtungen in Ihrem Zeitreihendatensatz festlegen. Dies ist besonders nützlich, wenn Sie mit Zeitreihendaten arbeiten, die Beobachtungen in unregelmäßigen Abständen enthalten. Beispielsweise können Sie Resampling verwenden, um einen Datensatz mit Beobachtungen, die alle eine Stunde, zwei Stunden und drei Stunden aufgezeichnet wurden, in ein reguläres Intervall von einer Stunde zwischen den Beobachtungen umzuwandeln. Prognosealgorithmen erfordern, dass die Beobachtungen in regelmäßigen Abständen gemacht werden.

Gehen Sie wie folgt vor, um Zeitreihendaten erneut abzutasten.

  1. Wählen Sie in der SageMaker Canvas-Anwendung auf der Registerkarte Erstellen die Option Time series aus.

  2. Wählen Sie Resample.

  3. Wählen Sie unter Timestamp-Spalte die Spalte aus, auf die Sie die Transformation anwenden möchten. Sie können nur Spalten vom Typ Datetime auswählen.

  4. Wählen Sie im Bereich Frequenzeinstellungen eine Frequenz und eine Rate aus. Frequenz ist die Einheit der Frequenz und Rate ist das Intervall der Frequenzeinheit, das auf die Spalte angewendet werden soll. Wenn Sie beispielsweise für Häufigkeitswert und Calendar Day 1 für Rate wählen, wird das Intervall so festgelegt, dass es alle einen Kalendertag verlängert wird, z. B. 2023-03-26 00:00:00, 2023-03-27 00:00:00,2023-03-28 00:00:00. Eine vollständige Liste der Häufigkeitswerte finden Sie in der Tabelle nach diesem Verfahren.

  5. Wählen Sie Hinzufügen, um die Transformation zum Modellrezept hinzuzufügen.

In der folgenden Tabelle sind alle Frequenztypen aufgeführt, die Sie beim Resampling von Zeitreihendaten auswählen können.

Häufigkeit Beschreibung Beispielwerte (vorausgesetzt, Rate ist 1)

Geschäftstag

Geben Sie für die Beobachtungen in der Datetime-Spalte eine Stichprobe von 5 Geschäftstagen der Woche (Montag, Dienstag, Mittwoch, Donnerstag, Freitag) ein

2023-03-24 00:00:00

2023-03-27 00:00:00

2023-03-28 00:00:00

2023-03-29 00:00:00

2023-03-30 00:00:00

2023-03-31 00:00:00

2023-04-03 00:00:00

Kalendertag

Geben Sie den Beobachtungen in der Datetime-Spalte eine Stichprobe für alle 7 Wochentage (Montag, Dienstag, Mittwoch, Donnerstag, Freitag, Samstag, Sonntag)

2023-03-26 00:00:00

2023-03-27 00:00:00

2023-03-28 00:00:00

2023-03-29 00:00:00

2023-03-30 00:00:00

2023-03-31 00:00:00

2023-04-01 00:00:00

Woche

Nehmen Sie für die Beobachtungen in der Datetime-Spalte eine Neuberechnung auf den ersten Tag jeder Woche vor

2023-03-13 00:00:00

2023-03-20 00:00:00

2023-03-27 00:00:00

2023-04-03 00:00:00

Monat

Vervollständigen Sie die Beobachtungen in der Datetime-Spalte mit dem ersten Tag jedes Monats

2023-03-01 00:00:00

2023-04-01 00:00:00

2023-05-01 00:00:00

2023-06-01 00:00:00

Jährliches Quartal

Geben Sie für die Beobachtungen in der Datetime-Spalte eine Stichprobe auf den letzten Tag jedes Quartals zurück

2023-03-31 00:00:00

2023-06-30 00:00:00

2023-09-30 00:00:00

2023-12-31 00:00:00

Jahr

Nehmen Sie für die Beobachtungen in der Datetime-Spalte eine Neuberechnung auf den letzten Tag jedes Jahres vor

31.12.2022 0:00:00

2023-12-31 00:00:00

2024-12-31 00:00:00

Stunde

Fügen Sie Beobachtungen in der Datetime-Spalte für jede Stunde jeden Tages neu.

2023-03-24 00:00:00

2023-03-24 01:00:00

2023-03-24 02:00:00

2023-03-24 03:00:00

Minute

Geben Sie für die Beobachtungen in der Datetime-Spalte eine Neuberechnung für jede Minute jeder Stunde ein

2023-03-24 00:00:00

2023-03-24 00:01:00

2023-03-24 00:02:00

2023-03-24 00:03:00

Sekunde

Geben Sie für die Beobachtungen in der Datetime-Spalte eine Neuberechnung auf jede Sekunde jeder Minute ein

2023-03-24 00:00:00

2023-03-24 00:00:01

2023-03-24 00:00:02

2023-03-24 00:00:03

Wenn Sie die Resampling-Transformation anwenden, können Sie mit der Option Erweitert angeben, wie die Ergebniswerte der restlichen Spalten (mit Ausnahme der Zeitstempelspalte) in Ihrem Datensatz geändert werden. Dies kann erreicht werden, indem Sie die Resampling-Methode angeben, bei der es sich entweder um ein Downsampling oder ein Upsampling sowohl für numerische als auch für nicht numerische Spalten handeln kann.

Durch das Downsampling wird das Intervall zwischen den Beobachtungen im Datensatz verlängert. Wenn Sie beispielsweise Beobachtungen, die entweder jede Stunde oder alle zwei Stunden aufgenommen werden, neu berechnen, wird jede Beobachtung in Ihrem Datensatz alle zwei Stunden aufgenommen. Die Werte anderer Spalten der stündlichen Beobachtungen werden mithilfe einer Kombinationsmethode zu einem einzigen Wert aggregiert. Die folgenden Tabellen zeigen ein Beispiel für die Neuabtastung von Zeitreihendaten unter Verwendung des Mittelwerts als Kombinationsmethode. Die Daten werden alle zwei Stunden auf jede Stunde heruntergerechnet.

Die folgende Tabelle zeigt die stündlichen Temperaturwerte über einen Tag vor dem Downsampling.

Zeitstempel Temperatur (Celsius)

12:00 pm

30

1:00 am

32

2:00 am

35

3:00 am

32

4:00 am

30

Die folgende Tabelle zeigt die Temperaturwerte nach dem Downsampling auf alle zwei Stunden.

Zeitstempel Temperatur (Celsius)

12:00 pm

30

2:00 am

33,5

2:00 am

35

4:00 am

32,5

Gehen Sie wie folgt vor, um Zeitreihendaten neu berechnen zu lassen:

  1. Erweitern Sie den Abschnitt Erweitert unter der Transformation Resample.

  2. Wählen Sie „Nichtnumerische Kombination, um die Kombinationsmethode für nicht numerische Spalten anzugeben aus. In der nachfolgenden Tabelle finden Sie eine vollständige Liste der Kombinationsmethoden.

  3. Wählen Sie Numerische Kombination, um die Kombinationsmethode für numerische Spalten anzugeben aus. In der nachfolgenden Tabelle finden Sie eine vollständige Liste der Kombinationsmethoden.

Wenn Sie keine Kombinationsmethoden angeben, gelten die Standardwerte Most Common für die nichtnumerische Kombination und Mean für die numerische Kombination. In der folgenden Tabelle sind die Methoden für numerische und nichtnumerische Kombinationen aufgeführt.

Methode der Downsampling-Methode Kombinationsmethode Beschreibung

Nichtnumerische Kombination

Am häufigsten

Aggregieren Sie die Werte in der nicht numerischen Spalte nach dem am häufigsten vorkommenden Wert

Nichtnumerische Kombination

Letzte

Aggregieren Sie die Werte in der nicht numerischen Spalte nach dem letzten Wert in der Spalte

Nichtnumerische Kombination

Erste

Aggregieren Sie die Werte in der nicht numerischen Spalte nach dem ersten Wert in der Spalte

Numerische Kombination

Mean

Aggregieren Sie die Werte in der numerischen Spalte, indem Sie den Mittelwert aller Werte in der Spalte bilden

Numerische Kombination

Median

Aggregieren Sie die Werte in der numerischen Spalte, indem Sie den Median aller Werte in der Spalte bilden

Numerische Kombination

Min

Aggregieren Sie die Werte in der numerischen Spalte, indem Sie das Minimum aller Werte in der Spalte nehmen

Numerische Kombination

Max

Aggregieren Sie die Werte in der numerischen Spalte, indem Sie das Maximum aller Werte in der Spalte nehmen

Numerische Kombination

Summe

Aggregieren Sie die Werte in der numerischen Spalte, indem Sie alle Werte in der Spalte addieren

Numerische Kombination

Quantil

Aggregieren Sie die Werte in der numerischen Spalte, indem Sie das Quantil aller Werte in der Spalte nehmen

Durch Upsampling wird das Intervall zwischen den Beobachtungen im Datensatz reduziert. Wenn Sie beispielsweise Beobachtungen, die alle zwei Stunden aufgenommen werden, in stündliche Beobachtungen umwandeln, werden die Werte der anderen Spalten der stündlichen Beobachtungen anhand der Werte interpoliert, die alle zwei Stunden aufgenommen wurden.

Gehen Sie wie folgt vor, um Zeitreihendaten hochzuladen:

  1. Erweitern Sie den Abschnitt Erweitert unter der Transformation Resample.

  2. Wählen Sie Nichtnumerische Schätzung, um die Schätzmethode für nicht numerische Spalten anzugeben. Eine vollständige Liste der Methoden finden Sie in der Tabelle nach diesem Verfahren.

  3. Wählen Sie Numerische Schätzung, um die Schätzmethode für numerische Spalten anzugeben. In der nachfolgenden Tabelle finden Sie eine vollständige Liste der Methoden.

  4. (Optional) Wählen Sie ID-Spalte, um die Spalte anzugeben, die die IDs der Beobachtungen der Zeitreihe enthält. Geben Sie diese Option an, wenn Ihr Datensatz zwei Zeitreihen enthält. Wenn Sie eine Spalte haben, die nur eine Zeitreihe darstellt, geben Sie keinen Wert für dieses Feld an. Sie können beispielsweise einen Datensatz haben, der die Spalten id und purchase enthält. Die id Spalte hat die folgenden Werte: [1, 2, 2, 1]. Die purchase Spalte hat die folgenden Werte [$2, $3, $4, $1]. Daher hat der Datensatz zwei Zeitreihen – eine Zeitreihe ist: 1: [$2, $1] und die andere Zeitreihe ist 2: [$3, $4].

Wenn Sie keine Schätzmethoden angeben, gelten die Standardwerte Forward Fill für nichtnumerische Schätzung und Linear für numerische Schätzung. In der folgende Tabelle sind die Schätzmethoden aufgeführt.

Upsampling-Methode Methode zur Schätzung Beschreibung

Nichtnumerische Schätzung

Vorwärts füllen

Interpolieren Sie Werte in der nicht numerischen Spalte, indem Sie nach allen Werten in der Spalte die aufeinanderfolgenden Werte nehmen

Nichtnumerische Schätzung

Rückwärts füllen

Interpolieren Sie Werte in der nicht numerischen Spalte, indem Sie die aufeinanderfolgenden Werte vor allen Werten in der Spalte nehmen

Nichtnumerische Schätzung

Immer wieder vermisst

Interpolieren Sie Werte in der nicht numerischen Spalte, indem Sie leere Werte anzeigen

Numerische Schätzung

Linear, Zeit, Index, Null, S-Linear, Nearest, Quadratisch, Kubisch, Baryzentrisch, Polynomial, Krogh, Stückweises Polynom, Spline, P-Chip, Akima, Kubisches Spline, Aus Ableitungen

Interpolieren Sie Werte in der numerischen Spalte mithilfe des angegebenen Interpolators. Informationen zu Interpolationsmethoden finden Sie unter Pandas. DataFrame.interpolate in der Pandas-Dokumentation.

Der folgende Screenshot zeigt die erweiterten Einstellungen mit ausgefüllten Feldern für Downsampling und Upsampling.

Screenshot der Canvas-Anwendung mit dem Seitenbereich für das Resampling von Zeitreihen mit den erweiterten Optionen.

Verwenden von Datums-/Uhrzeitab

Mit der Datetime-Extraktionstransformation können Sie Werte aus einer Datetime-Spalte in eine separate Spalte extrahieren. Wenn Sie beispielsweise über eine Spalte mit Kaufdaten verfügen, können Sie den Monatswert in eine separate Spalte extrahieren und die neue Spalte beim Erstellen Ihres Modells verwenden. Sie können mit einer einzigen Transformation auch mehrere Werte in separate Spalten extrahieren.

Ihre Datetime-Spalte muss ein unterstütztes Zeitstempelformat verwenden. Eine Liste der Formate, die SageMaker Canvas unterstützt, finden Sie unter. Zeitreihenprognosen in Amazon SageMaker Canvas Wenn Ihr Datensatz keines der unterstützten Formate verwendet, aktualisieren Sie Ihren Datensatz auf ein unterstütztes Zeitstempelformat und importieren Sie ihn erneut in Amazon SageMaker Canvas, bevor Sie Ihr Modell erstellen.

Gehen Sie wie folgt vor, um eine Datums-/Uhrzeit-Extraktion durchzuführen.

  1. Wählen Sie auf der Registerkarte Erstellen der SageMaker Canvas-Anwendung in der Transformationsleiste die Option Alle anzeigen aus.

  2. Wählen Sie Funktionen extrahieren.

  3. Wählen Sie die Timestamp-Spalte aus, aus der Sie Werte extrahieren möchten.

  4. Wählen Sie unter Werte einen oder mehrere Werte aus, die aus der Spalte extrahiert werden sollen. Die Werte, die Sie aus einer Zeitstempelspalte extrahieren können, sind Jahr, Monat, Tag, Stunde, Woche des Jahres, Tag des Jahres und Quartal.

  5. (Optional) Wählen Sie Vorschau, um eine Vorschau der Transformationsergebnisse anzuzeigen.

  6. Wählen Sie Hinzufügen, um die Transformation zum Modellrezept hinzuzufügen.

SageMaker Canvas erstellt für jeden der Werte, die Sie extrahieren, eine neue Spalte im Datensatz. Mit Ausnahme der Jahreswerte verwendet SageMaker Canvas eine auf 0 basierende Kodierung für die extrahierten Werte. Wenn Sie beispielsweise den Monatswert extrahieren, wird Januar als 0 und Februar als 1 extrahiert.

Screenshot des Datetime-Extraktionsfeldes in der SageMaker Canvas-Anwendung.

Die Transformation ist im Abschnitt Modellrezept aufgeführt. Wenn Sie die Transformation aus dem Abschnitt Modellrezept entfernen, werden die neuen Spalten aus dem Datensatz entfernt.