Erstellen und Verwenden eines Data Wrangler-Flow - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erstellen und Verwenden eines Data Wrangler-Flow

Verwenden Sie ein Amazon SageMaker Data Wrangler-Flow oder einDatenfluss, um eine Datenvorbereitungspipeline zu erstellen und zu ändern. Der Datenfluss verbindet die Datensätze, Transformationen und Analysen oderSchritteerstellen und können Sie Ihre Pipeline definieren.

Instances

Wenn Sie einen Data Wrangler-Flow in Amazon erstellen SageMaker Studio, Data Wrangler verwendet eine Amazon EC2 EC2-Instance, um die Analysen und Transformationen in Ihrem Flow auszuführen. Standardmäßig verwendet Data Wrangler die m5.4xlarge-Instanz. m5-Instanzen sind Allzweck-Instanzen, die ein Gleichgewicht zwischen Rechenleistung und Speicher bieten. Sie können m5-Instanzen für eine Vielzahl von Compute-Workloads verwenden.

Data Wrangler bietet Ihnen auch die Möglichkeit, r5-Instanzen zu verwenden. r5-Instanzen bieten eine schnelle Leistung, die große Datensätze im Speicher verarbeitet.

Wir empfehlen Ihnen, eine Instanz zu wählen, die am besten für Ihre Workloads optimiert ist. Zum Beispiel könnte der r5.8xlarge einen höheren Preis als der m5.4xlarge haben, aber der r5.8xlarge könnte besser für Ihre Workloads optimiert sein. Mit besser optimierten Instanzen können Sie Ihre Datenflüsse in kürzerer Zeit zu geringeren Kosten ausführen.

Die folgende Tabelle zeigt die -Instances, die Sie verwenden können, um Ihren Data Wrangler-Flow auszuführen.

Standard-Instances vCPU Arbeitsspeicher
ml.m5.4xlarge 16 64 GiB
ml.m5.8xlarge 32 128 GiB
ml.m5.16xlarge 64

256 GiB

ml.m5.24xlarge 96 384 GiB
r5.4xlarge 16 128 GiB
r5.8xlarge 32 256 GiB
r5.24xlarge 96 768 GiB

Weitere Informationen zu R5-Instances finden Sie unterAmazon EC2 R5-Instancesaus. Weitere Informationen zu m5-Instances finden Sie unterAmazon EC2 M5-Instancesaus.

Jeder Data Wrangler-Flow ist mit einer EC2-Instanz verknüpft. Möglicherweise haben Sie mehrere Flows, die einer einzelnen Instanz zugeordnet sind.

Für jede Flow-Datei können Sie den Instanztyp nahtlos wechseln. Wenn Sie den Instanztyp wechseln, wird die Instanz, mit der Sie den Flow ausgeführt haben, weiterhin ausgeführt.

Gehen Sie wie folgt vor, um den Instanztyp Ihres Flow zu wechseln.

  1. Navigieren Sie zu der Instanz, die Sie gerade verwenden, und wählen Sie sie aus. Die folgende Abbildung zeigt, wo Sie die Instanz auswählen müssen.

    
                        Um Instanzen zu wechseln, wählen Sie den Namen der Instanz, die Sie gerade ausführen, im roten Feld oben rechts aus.
  2. Wählen Sie den Instance-Typ aus, den Sie verwenden möchten.

  3. Wählen Sie Save (Speichern) aus.

Ihnen werden alle laufenden Instances in Rechnung gestellt. Um zu vermeiden, dass zusätzliche Gebühren anfallen, fahren Sie die Instanzen herunter, die Sie nicht manuell verwenden. Gehen Sie wie folgt vor, um eine laufende Instanz herunterzufahren.

So fahren Sie eine laufende Instance herunter.

  1. Wählen Sie das Instanzsymbol auf der linken Seite der Benutzeroberfläche aus. Die folgende Abbildung zeigt, wo SieLAUFENDE INSTANCES.

    
                        Um die laufenden Instanzen anzuzeigen, wählen Sie das Symbol aus, das links im roten Textfeld hervorgehoben ist.
  2. Wählen Sie das SymbolSo fahren Sie herunterneben der -Instance, die Sie herunterfahren möchten.

Wenn Sie eine Instanz herunterfahren, mit der ein Flow ausgeführt wurde, können Sie nicht vorübergehend auf den Flow zugreifen. Wenn beim Öffnen des Flows eine Instanz angezeigt wird, die Sie zuvor heruntergefahren haben, einen Fehler erhalten, warten Sie ungefähr fünf Minuten und versuchen Sie es erneut zu öffnen.

Wenn Sie Ihren Datenfluss an einen Standort wie Amazon Simple Storage Service oder Amazon exportieren SageMaker Feature Store, Data Wrangler betreibt ein Amazon SageMaker Verarbeitungsauftrag. Sie können eine der folgenden Instances für den Verarbeitungsauftrag verwenden. Weitere Informationen zum Exportieren der Daten finden Sie unterExportaus.

Standard-Instances vCPU Arbeitsspeicher
ml.m5.4xlarge 16 64 GiB
ml.m5.12xlarge 48

192 GiB

ml.m5.24xlarge 96 384 GiB

Weitere Informationen zu den Kosten pro Stunde für die Verwendung der verfügbaren Instance-Typen finden Sie unterSageMaker-Preiseaus.

Die Datenfluss-Benutzeroberfläche

Wenn Sie einen Datensatz importieren, wird das ursprüngliche Dataset im Datenfluss angezeigt und heißtSourceaus. Wenn Sie das Sampling beim Importieren Ihrer Daten aktiviert haben, heißt dieser DatensatzQuelle - gesampeltaus. Data Wrangler leitet automatisch die Typen jeder Spalte in Ihrem Datensatz ab und erstellt einen neuen Datenrahmen namensDatentypenaus. Sie können diesen Frame auswählen, um die abgeleiteten Datentypen zu aktualisieren. Nach dem Hochladen eines einzelnen Datasets sehen Sie Ergebnisse wie im folgenden Bild gezeigt:

Jedes Mal, wenn Sie einen Transformationsschritt hinzufügen, erstellen Sie einen neuen Datenrahmen. Wenn mehrere Transformationsschritte (außer Join oder Concatenate) demselben Datensatz hinzugefügt werden, werden sie gestapelt.

Join and Concatenate erstellen eigenständige Schritte, die das neue verknüpfte oder verkettete Dataset enthalten.

Das folgende Diagramm zeigt einen Datenfluss mit einer Verbindung zwischen zwei Datensätzen sowie zwei Stapel von Schritten. Der erste Stack (Schritte (2)) fügt dem Typ zwei Transformationen hinzu, der imDatentypen-Datensatz. DiestromabwärtsStack oder der Stapel auf der rechten Seite fügt dem Datensatz Transformationen hinzu, die sich aus einem Join namensDemo-beitretenaus.

Das kleine, graue Feld in der unteren rechten Ecke des Datenflusses bietet einen Überblick über die Anzahl der Stapel und Schritte im Flow und das Layout des Flusses. Das leichtere Feld im grauen Feld zeigt die Schritte an, die sich innerhalb der UI-Ansicht befinden. Sie können dieses Feld verwenden, um Abschnitte Ihres Datenflusses anzuzeigen, die sich außerhalb der UI-Ansicht befinden. Verwenden Sie das Symbol „Bildschirm anpassen“ ( ) um alle Schritte und Datensätze in Ihre UI-Ansicht zu füllen.

Die Navigationsleiste unten links enthält Symbole, die Sie zum Vergrößern verwenden können ( ) und raus ( ) Ihres Datenflusses und ändern Sie die Größe des Datenflusses an den Bildschirm ( ). Benutze das Schloss-Symbol ( ) um die Position jedes Schrittes auf dem Bildschirm zu sperren und zu entsperren.

Fügen Sie Ihrem Datenfluss einen Schritt hinzu

Select+neben einem Dataset oder einem zuvor hinzugefügten Schritt und dann eine der folgenden Optionen auswählen:

  • Bearbeiten von Datentypen(FürDatentypennur schritt): Wenn Sie keine Transformationen zu einem hinzugefügt habenDatentypenSchritt können Sie auswählenBearbeiten von Datentypenum die Datentypen zu aktualisieren, die Data Wrangler beim Importieren Ihres Datensatzes abgeleitet hat.

  • Transformation hinzufügen: Fügt einen neuen Transformationsschritt hinzu. Siehe .Transformieren Sie Datenum mehr über die Datentransformationen zu erfahren, die Sie hinzufügen können.

  • Fügen Sie Analyse hinzu: Fügt eine -Analyse hinzu. Sie können diese Option verwenden, um Ihre Daten an jedem Punkt im Datenfluss zu analysieren. Wenn Sie einem Schritt eine oder mehrere Analysen hinzufügen, wird ein Analysesymbol ( ) erscheint in diesem Schritt. Siehe .Analysieren und Visualisierenum mehr über die Analysen zu erfahren, die Sie hinzufügen können.

  • Beitreten: Verbindet zwei Datensätze und fügt den resultierenden Datensatz zum Datenfluss hinzu. Weitere Informationen hierzu finden Sie unter Beitreten von Datensätzen.

  • Verketten: Verkettet zwei Datensätze und fügt den resultierenden Datensatz zum Datenfluss hinzu. Weitere Informationen hierzu finden Sie unter Verketten von Datensätzen.

Löschen Sie einen Schritt aus Ihrem Datenfluss

Um einen Schritt zu löschen, wählen Sie den Schritt aus und wählenLöschenaus. Wenn der Knoten ein Knoten ist, der eine einzige Eingabe hat, löschen Sie nur den ausgewählten Schritt. Wenn Sie einen Schritt mit einer einzigen Eingabe löschen, werden die folgenden Schritte nicht gelöscht. Wenn Sie einen Schritt für einen Quell-, Join- oder Verkettungsknoten löschen, werden alle folgenden Schritte ebenfalls gelöscht.

Um einen Schritt aus einem Stapel von Schritten zu löschen, wählen Sie den Stapel aus und wählen Sie dann den Schritt aus, den Sie löschen möchten.

Verwenden Sie eines der folgenden Verfahren, um einen Schritt zu löschen, ohne die Downstream-Schritte zu löschen.

Delete a step in the Data Wrangler flow

Sie können einen einzelnen Schritt für Knoten in Ihrem Datenfluss löschen, die eine einzige Eingabe haben. Sie können einzelne Schritte für Source-, Join- und Verkettungsknoten nicht löschen.

Gehen Sie wie folgt vor, um einen Schritt im Data Wrangler-Ablauf zu löschen.

  1. Wählen Sie die Gruppe von Schritten aus, die den Schritt enthält, den Sie löschen möchten.

  2. Wählen Sie neben dem Schritt das Symbol aus.

  3. Wählen Sie Delete (Löschen).

Delete a step in the table view

Gehen Sie wie folgt vor, um einen Schritt in der Tabellenansicht zu löschen.

Sie können einen einzelnen Schritt für Knoten in Ihrem Datenfluss löschen, die eine einzige Eingabe haben. Sie können einzelne Schritte für Source-, Join- und Verkettungsknoten nicht löschen.

  1. Wählen Sie den Schritt aus und öffnen Sie die Tabellenansicht für den Schritt.

  2. Bewegen Sie den Mauszeiger über den Schritt.

  3. Wählen Sie neben dem Schritt das Symbol aus.

  4. Wählen Sie Delete (Löschen).

Bearbeiten Sie einen Schritt in Ihrem Data Wrangler-Flow

Sie können jeden Schritt bearbeiten, den Sie in Ihrem Data Wrangler-Flow hinzugefügt haben. Mit Bearbeitungsschritten können Sie die Transformationen oder die Datentypen der Spalten ändern. Sie können die Schritte bearbeiten, um Änderungen vorzunehmen, mit denen Sie bessere Analysen durchführen können.

Es gibt viele Möglichkeiten, einen Schritt zu bearbeiten. Einige Beispiele umfassen das Ändern der Imputationsmethode oder das Ändern des Schwellenwerts für die Betrachtung eines Wertes als Ausreißer.

Gehen Sie wie folgt vor, um einen Schritt zu bearbeiten.

Gehen Sie wie folgt vor, um einen Schritt zu bearbeiten.

  1. Wählen Sie einen Schritt im Data Wrangler-Flow aus, um die Tabellenansicht zu öffnen.

  2. Wählen Sie einen Schritt im Datenfluss aus.

  3. Bearbeiten Sie den Schritt.

Im Folgenden finden Sie ein Beispiel für die Bearbeitung eines Schritts.