Export - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Export

In Ihrem Data-Wrangler-Flow können Sie einige oder alle Transformationen exportieren, die Sie an Ihren Datenverarbeitungspipelines vorgenommen haben.

Ein Data-Wrangler-Flow besteht aus der Reihe von Datenvorbereitungsschritten, die Sie an Ihren Daten vorgenommen haben. Bei Ihrer Datenaufbereitung führen Sie an Ihren Daten eine oder mehrere Transformationen durch. Jede Transformation wird mit einem Transformationsschritt durchgeführt. Der Flow besteht aus einer Reihe von Knoten, die den Import Ihrer Daten und die von Ihnen durchgeführten Transformationen darstellen. Ein Beispiel für Knoten sehen Sie in der folgenden Abbildung.

Beispiel für einen Datenfluss in der Data Wrangler-Konsole.

Das vorige Bild zeigt einen Data-Wrangler-Flow mit zwei Knoten. Der Knoten Quelle – Stichprobe zeigt die Datenquelle, aus der Sie Ihre Daten importiert haben. Der Knoten Datentypen gibt an, dass Data Wrangler eine Transformation vorgenommen hat, um den Datensatz in ein verwendbares Format zu konvertieren.

Jede Transformation, die Sie zum Data-Wrangler-Flow hinzufügen, wird als zusätzlicher Knoten angezeigt. Informationen zu den Transformationen, die Sie hinzufügen können, finden Sie unter Daten transformieren. Die folgende Abbildung zeigt einen Data-Wrangler-Flow, der über einen Rename-Column-Knoten verfügt, mit dem der Name einer Spalte in einem Datensatz geändert werden kann.

Ihre Datentransformationen können Sie zu folgenden Zielen exportieren:

  • Amazon S3

  • Pipelines

  • Amazon SageMaker Feature Store

  • Python Code

Wichtig

Wir empfehlen Ihnen, die IAM AmazonSageMakerFullAccess verwaltete Richtlinie für die Gewährung zu verwenden AWS Erlaubnis zur Nutzung von Data Wrangler. Wenn Sie die verwaltete Richtlinie nicht verwenden, können Sie eine IAM Richtlinie verwenden, die Data Wrangler Zugriff auf einen Amazon S3 S3-Bucket gewährt. Weitere Informationen zu der Richtlinie finden Sie unter Sicherheit und Berechtigungen.

Wenn Sie Ihren Datenfluss exportieren, wird Ihnen Folgendes in Rechnung gestellt AWS Ressourcen, die Sie verwenden. Sie können die Kosten für diese Ressourcen mit Hilfe von Kostenzuordnungs-Tags organisieren und verwalten. Sie erstellen diese Tags für Ihr Benutzerprofil. Data Wrangler wendet sie dann automatisch auf die für den Export des Datenflusses verwendeten Ressourcen an. Weitere Informationen finden Sie unter Verwendung von Kostenzuordnungs-Tags.

Exportieren zu Amazon S3

Mit Data Wrangler können Sie Ihre Daten an einen Ort in einem Bucket von Amazon S3 exportieren. Sie können den Speicherort mit einer der folgenden Methoden angeben:

  • Zielknoten – Hier speichert Data Wrangler die Daten, nachdem sie verarbeitet wurden.

  • Exportieren nach – Exportiert die Daten, die sich aus einer Transformation ergeben, nach Amazon S3.

  • Daten exportieren – Bei kleinen Datensätzen können Sie die transformierten Daten schnell exportieren.

In den folgenden Abschnitten erfahren Sie mehr über jede dieser Methoden.

Destination Node

Wenn Sie eine Reihe von Datenverarbeitungsschritten, die Sie vorgenommen haben, an Amazon S3 ausgeben möchten, erstellen Sie einen Zielknoten. Ein Zielknoten teilt Data Wrangler mit, wo die Daten gespeichert werden sollen, nachdem Sie sie verarbeitet haben. Sobald Sie einen Zielknoten erstellt haben, erstellen Sie einen Processing-Job zur Ausgabe der Daten. Ein Verarbeitungsauftrag ist ein SageMaker Amazon-Verarbeitungsauftrag. Wenn Sie einen Zielknoten verwenden, werden auf diesem die Rechenressourcen ausgeführt, die für die Ausgabe der Daten erforderlich sind, die Sie in Amazon S3 transformiert haben.

Mit einem Zielknoten können Sie einige oder alle der Transformationen exportieren, die Sie in Ihrem Data-Wrangler-Flow vorgenommen haben.

Sie können mehrere Zielknoten verwenden, um verschiedene Transformationen oder Mengen davon zu exportieren. Das folgende Beispiel zeigt zwei Zielknoten in einem einzigen Data-Wrangler-Flow.

Beispiel für einen Datenfluss, der zwei Zielknoten in der Data Wrangler-Konsole zeigt.

Mit Hilfe des folgenden Verfahrens können Sie Zielknoten erstellen und sie in einen Bucket von Amazon S3 zu exportieren.

Um Ihren Datenfluss zu exportieren, erstellen Sie Zielknoten und einen Data-Wrangler-Job, um die Daten zu exportieren. Wenn Sie einen Data Wrangler-Job erstellen, wird ein SageMaker Verarbeitungsjob gestartet, um Ihren Flow zu exportieren. Sie können die Zielknoten auswählen, die Sie exportieren möchten, sobald Sie sie erstellt haben.

Anmerkung

Im Data-Wrangler-Flow können Sie die Option Job erstellen auswählen, um die Anweisungen zur Verwendung eines Processing-Jobs anzuzeigen.

Gehen Sie wie folgt vor, um Zielknoten zu erstellen.

  1. Wählen Sie das + neben den Knoten aus, die die zu exportierenden Transformationen darstellen.

  2. Wählen Sie Add destination (Ziel hinzufügen).

    Beispiel für einen Datenfluss, der zeigt, wie ein Ziel in der Data Wrangler-Konsole hinzugefügt wird.
  3. Wählen Sie Amazon S3.

    Beispieldatenfluss, der zeigt, wie ein Ziel in der Data Wrangler-Konsole hinzugefügt wird.
  4. Geben Sie die folgenden Felder an.

    • Datensatzname – Der Name, den Sie für den zu exportierenden Datensatz angeben.

    • Dateityp – Das Format der zu exportierenden Datei.

    • Delimiter (CSVund nur Parquet-Dateien) — Der Wert, der verwendet wird, um andere Werte voneinander zu trennen.

    • Komprimierung (CSVund nur Parquet-Dateien) — Die Komprimierungsmethode, mit der die Dateigröße reduziert wird. Sie können die folgenden Komprimierungsmethoden verwenden:

      • bzip2

      • deflate

      • gzip

    • (Optional) Speicherort in Amazon S3 – Der S3-Speicherort, den Sie für die Ausgabe der Dateien verwenden.

    • (Optional) Anzahl der Partitionen – Die Anzahl der Datensätze, die Sie als Ausgabe des Processing-Jobs schreiben.

    • (Optional) nach Spalten partitionieren – Schreibt alle Daten mit demselben eindeutigen Wert aus der Spalte.

    • (Optional) Inferenzparameter – Wenn Sie Inferenzartefakt erzeugen auswählen, werden alle im Data-Wrangler-Flow verwendeten Transformationen auf Daten angewendet, die in Ihre Inference Pipeline gelangen. Das Modell in Ihrer Pipeline trifft Vorhersagen zu den transformierten Daten.

  5. Wählen Sie Add destination (Ziel hinzufügen).

Gehen Sie wie folgt vor, um einen Processing-Job zu erstellen.

Erstellen Sie von der Seite Datenfluss aus einen Job und wählen Sie die Zielknoten aus, die Sie exportieren möchten.

Anmerkung

Sie können im Data-Wrangler-Flow die Option Job erstellen auswählen, dann werden Ihnen die Anweisungen zum Erstellen eines Processing-Jobs angezeigt.

  1. Wählen Sie Job erstellen aus. Die folgende Abbildung zeigt den Bereich, der angezeigt wird, wenn Sie Job erstellen ausgewählt haben.

    Beispiel für einen Auftragsbereich zum Erstellen eines Datenflusses in der Data Wrangler-Konsole.
  2. Geben Sie unter Jobname den Namen des Exportjobs an.

  3. Wählen Sie die Zielknoten aus, die Sie exportieren möchten.

  4. (Optional) Geben Sie ein AWS KMS SchlüsselARN. A AWS KMS Ein Schlüssel ist ein kryptografischer Schlüssel, mit dem Sie Ihre Daten schützen können. Weitere Informationen zur AWS KMS Schlüssel, siehe AWS Key Management Service.

  5. (Optional) Wählen Sie unter Trainierte Parameter die Option Erneut anpassen aus, wenn Sie Folgendes getan haben:

    • Ihren Datensatz getestet

    • Eine Transformation angewendet haben, die anhand Ihrer Daten eine neue Spalte im Datensatz erstellt

    Weitere Informationen zum erneuten Anpassen der von Ihnen an einem gesamten Datensatz vorgenommenen Transformationen finden Sie unter Transformationen für den gesamten Datensatz erneut anpassen und exportieren.

    Anmerkung

    Für Bilddaten exportiert Data Wrangler die Transformationen, die Sie an allen Bildern vorgenommen haben. Das erneute Anpassen der Transformationen ist auf Ihren Anwendungsfall nicht anwendbar.

  6. Wählen Sie Job konfigurieren aus. Die folgende Abbildung zeigt die Seite Job konfigurieren.

    Beispiel für eine Auftragsseite zur Konfiguration des Datenflusses in der Data Wrangler-Konsole.
  7. (Optional) Konfigurieren Sie den Data-Wrangler-Job. Sie können die folgenden Konfigurationen vornehmen:

    • Job-Konfiguration

    • Konfiguration des Spark-Speichers

    • Netzwerkkonfiguration

    • Tags

    • Parameter

    • Zeitpläne zuordnen

  8. Wählen Sie Ausführen aus.

Export to

Als Alternative zur Verwendung eines Zielknotens können Sie die Option Exportieren nach verwenden, um Ihren Data-Wrangler-Flow mithilfe eines Jupyter Notebooks nach Amazon S3 zu exportieren. Sie können in Ihrem Data-Wrangler-Flow einen beliebigen Datenknoten auswählen und ihn exportieren. Beim Exportieren des Datenknotens wird die Transformation exportiert, die der Knoten darstellt, sowie die Transformationen, die ihm vorausgehen.

Gehen Sie wie folgt vor, um ein Jupyter Notebook zu erzeugen und es auszuführen, um Ihren Data-Wrangler-Flow nach Amazon S3 zu exportieren.

  1. Wählen Sie das + neben dem Knoten aus, die Sie exportieren möchten.

  2. Klicken Sie auf Exportieren nach.

  3. Wählen Sie Amazon S3 (über Jupyter Notebook) aus.

  4. Führen Sie das Jupyter Notebook aus.

    Beispiel für einen Datenfluss, der zeigt, wie Sie Ihren Data Wrangler-Fluss in der Data Wrangler-Konsole exportieren.

Wenn Sie das Notizbuch ausführen, exportiert es Ihren Datenfluss (.flow-Datei) in dasselbe AWS-Region wie der Data Wrangler-Flow.

Das Notebook bietet Optionen, mit denen Sie den Processing-Job und die von ihm ausgegebenen Daten konfigurieren können.

Wichtig

Wir stellen Ihnen Jobkonfigurationen zur Verfügung, mit denen Sie die Ausgabe Ihrer Daten konfigurieren können. Für die Partitionierung und die Speicheroptionen für die Treiber raten wir dringend davon ab, eine Konfiguration anzugeben, es sei denn, Sie haben bereits Kenntnisse dazu.

Unter Jobkonfigurationen können Sie Folgendes konfigurieren:

  • output_content_type– Den Inhaltstyp der Ausgabedatei. Verwendet CSV als Standardformat. Sie können Parquet jedoch angeben.

  • delimiter— Das Zeichen, das beim Schreiben in eine CSV Datei zum Trennen von Werten im Datensatz verwendet wird.

  • compression– Falls eingestellt, wird die Ausgabedatei komprimiert. Verwendet gzip als Standard-Komprimierungsformat.

  • num_partitions– Die Anzahl der Partitionen oder Dateien, die Data Wrangler als Ausgabe schreibt.

  • partition_by– Die Namen der Spalten, die Sie zur Partitionierung der Ausgabe verwenden.

Um das Ausgabedateiformat von in Parquet CSV zu ändern, ändern Sie den Wert von "CSV" bis"Parquet". Bei den übrigen vorangehenden Feldern entfernen Sie die Kommentarzeichen aus den Zeilen, die die anzugebenden Felder enthalten.

Unter (optional) Spark-Cluster-Treiberspeicher konfigurieren können Sie Spark-Eigenschaften für den Job im config Wörterbuch konfigurieren, z. B. den Spark-Treiberspeicher.

Im Folgenden wird das config Wörterbuch gezeigt.

config = json.dumps({ "Classification": "spark-defaults", "Properties": { "spark.driver.memory": f"{driver_memory_in_mb}m", } })

Um die Konfiguration auf den Processing-Job anzuwenden, entfernen Sie das Kommentarzeichen in den folgenden Zeilen:

# data_sources.append(ProcessingInput( # source=config_s3_uri, # destination="/opt/ml/processing/input/conf", # input_name="spark-config", # s3_data_type="S3Prefix", # s3_input_mode="File", # s3_data_distribution_type="FullyReplicated" # ))
Export data

Wenn Sie eine Transformation für einen kleinen Datensatz haben, den Sie schnell exportieren möchten, können Sie die Methode Daten exportiere verwenden. Wenn Sie mit der Auswahl Daten exportieren beginnen, exportiert Data Wrangler die Daten, die Sie in Amazon S3 transformiert haben, synchron. Sie können Data Wrangler erst verwenden, wenn entweder der Export Ihrer Daten abgeschlossen ist oder Sie den Vorgang abbrechen.

Informationen zur Verwendung der Datenexport-Methode in Ihrem Data-Wrangler-Flow finden Sie in dem folgenden Verfahren.

So verwenden Sie die Methode Daten exportieren:

  1. Wählen Sie in Ihrem Data-Wrangler-Flow einen Knoten aus, indem Sie ihn öffnen (doppelt darauf klicken).

    Beispiel für einen Datenfluss, der zeigt, wie Daten in der Data Wrangler-Konsole exportiert werden.
  2. Konfigurieren Sie, wie Sie die Daten exportieren möchten.

  3. Wählen Sie Daten exportieren aus.

Wenn Sie Ihren Datenfluss in einen Bucket von Amazon S3 exportieren, speichert Data Wrangler eine Kopie der Flow-Datei im S3-Bucket. Er speichert die Flow-Datei unter dem Präfix data_wrangler_flows. Wenn Sie zum Speichern Ihrer Flow-Dateien den Standard-Bucket von Amazon S3 verwenden, verwendet es die folgende Namenskonvention:sagemaker-region-account number. Wenn Ihre Kontonummer beispielsweise 111122223333 lautet und Sie Studio Classic in us-east-1 verwenden, werden Ihre importierten Datensätze in gespeichert. sagemaker-us-east-1-111122223333 In diesem Beispiel werden Ihre in us-east-1 erstellten .flow-Dateien in s3://sagemaker-region-account number/data_wrangler_flows/ gespeichert.

In Pipelines exportieren

Wenn Sie umfangreiche Workflows für maschinelles Lernen (ML) erstellen und bereitstellen möchten, können Sie Pipelines verwenden, um Workflows zu erstellen, mit denen Jobs verwaltet und bereitgestellt SageMaker werden. Mit Pipelines können Sie Workflows erstellen, die Ihre SageMaker Datenvorbereitungs-, Modelltrainings- und Modellbereitstellungsaufträge verwalten. Mithilfe von Pipelines können Sie die SageMaker Algorithmen von Erstanbietern verwenden. Weitere Informationen zu Pipelines finden Sie unter Pipelines. SageMaker

Wenn Sie einen oder mehrere Schritte aus Ihrem Datenfluss in Pipelines exportieren, erstellt Data Wrangler ein Jupyter-Notebook, mit dem Sie eine Pipeline definieren, instanziieren, ausführen und verwalten können.

Verwenden Sie zur Erstellung einer Pipeline ein Jupyter Notebook

Gehen Sie wie folgt vor, um ein Jupyter-Notebook zu erstellen, um Ihren Data Wrangler-Flow in Pipelines zu exportieren.

Verwenden Sie das folgende Verfahren, um ein Jupyter-Notebook zu generieren und es auszuführen, um Ihren Data Wrangler-Flow nach Pipelines zu exportieren.

  1. Wählen Sie das + neben dem Knoten aus, die Sie exportieren möchten.

  2. Klicken Sie auf Exportieren nach.

  3. Wählen Sie Pipelines (über Jupyter Notebook).

  4. Führen Sie das Jupyter Notebook aus.

Beispiel für einen Datenfluss, der zeigt, wie Sie Ihren Data Wrangler-Flow in der Data Wrangler-Konsole exportieren.

Sie können das von Data Wrangler erstellte Jupyter Notebook verwenden, um eine Pipeline zu definieren. Die Pipeline beinhaltet die Datenverarbeitungsschritte, die durch Ihren Data-Wrangler-Flow festgelegt werden.

Sie können zu Ihrer Pipeline weitere Schritte hinzufügen, indem Sie zu der steps Liste im folgenden Code im Notebook Schritte hinzufügen:

pipeline = Pipeline( name=pipeline_name, parameters=[instance_type, instance_count], steps=[step_process], #Add more steps to this list to run in your Pipeline )

Weitere Informationen zur Definition von Pipelines finden Sie unter Pipeline definieren. SageMaker

Zu einem Inferenz-Endpunkt exportieren

Verwenden Sie Ihren Data Wrangler-Flow, um Daten zum Zeitpunkt der Inferenz zu verarbeiten, indem Sie aus Ihrem Data Wrangler-Flow eine SageMaker serielle Inferenz-Pipeline erstellen. Eine Inference Pipeline besteht aus einer Reihe von Schritten, die dazu führen, dass ein trainiertes Modell Vorhersagen zu neuen Daten trifft. Eine serielle Inference Pipeline innerhalb von Data Wrangler transformiert die Rohdaten und stellt sie dem Machine-Learning-Modell zur Verfügung, damit es eine Vorhersage trifft. Sie erstellen, führen und verwalten die Inferenz-Pipeline von einem Jupyter-Notebook in Studio Classic aus. Weitere Informationen zum Zugriff auf das Notebook finden Sie unter Erstellen Sie einen Inferenz-Endpunkt mit Hilfe eines Jupyter Notebooks.

Im Notebook können Sie entweder ein Machine-Learning-Modell trainieren oder eines angeben, das Sie bereits trainiert haben. Sie können entweder Amazon SageMaker Autopilot verwenden oder XGBoost das Modell anhand der Daten trainieren, die Sie in Ihrem Data Wrangler-Flow transformiert haben.

Die Pipeline bietet die Möglichkeit, entweder eine Batch- oder Echtzeit-Inferenz vorzunehmen. Sie können den Data Wrangler-Flow auch zu Model Registry hinzufügen. SageMaker Weitere Informationen über Hosting-Modelle finden Sie unter Hosten Sie mehrere Modelle in einem Container hinter einem Endpunkt.

Wichtig

Sie können Ihren Data-Wrangler-Flow nicht zu einem Inference-Endpunkt exportieren, wenn er die folgenden Transformationen aufweist:

  • Join

  • Verketten

  • Gruppierung nach

Wenn Sie Ihre Daten mit Hilfe der vorangegangenen Transformationen vorbereiten müssen, gehen Sie wie folgt vor.

So bereiten Sie Ihre Daten für die Inferenz mit nicht unterstützten Transformationen vor
  1. Erstellen Sie einen Data-Wrangler-Flow.

  2. Wenden Sie die vorangegangenen Transformationen an, die nicht unterstützt werden.

  3. Exportieren Sie die Daten in einen Bucket von Amazon S3.

  4. Erstellen Sie einen separaten Data-Wrangler-Flow.

  5. Importieren Sie die Daten, die Sie aus dem vorangegangenen Flow exportiert haben.

  6. Wenden Sie die übrigen Transformationen an.

  7. Erstellen Sie mit dem von uns bereitgestellten Jupyter Notebook eine serielle Inference Pipeline.

Informationen zum Exportieren Ihrer Daten in einen Bucket von Amazon S3 finden Sie unter Exportieren zu Amazon S3. Informationen zum Öffnen des Jupyter Notebooks, mit dem die serielle Inference Pipeline erstellt wird, finden Sie unter Erstellen Sie einen Inferenz-Endpunkt mit Hilfe eines Jupyter Notebooks.

Data Wrangler ignoriert Transformationen, die zum Zeitpunkt der Inferenz Daten entfernen. Data Wrangler ignoriert z. B. die Transformation Fehlende Werte behandeln, wenn Sie die Konfiguration Drop missing verwenden.

Wenn Sie Transformationen an Ihren gesamten Datensatz angepasst haben, werden die Transformationen in Ihre Inference Pipeline übertragen. Wenn Sie z. B. fehlende Werte mit Hilfe des Medianwertes zugeschrieben haben, wird der Medianwert aus der Neuanpassung der Transformation auf Ihre Inferenzanforderungen angewendet. Sie können entweder die Transformationen aus Ihrem Data-Wrangler-Flow neu anpassen, wenn Sie das Jupyter Notebook verwenden oder wenn Sie Ihre Daten in eine Inference Pipeline exportieren. Informationen zur Neuanpassung von Transformationen finden Sie unter Transformationen für den gesamten Datensatz erneut anpassen und exportieren.

Die serielle Inference Pipeline unterstützt die folgenden Datentypen für die Eingabe- und Ausgabezeichenfolgen. Für jeden Datentyp gibt es eine Reihe von Anforderungen.

Unterstützte Datentypen
  • text/csv— der Datentyp für Zeichenketten CSV

    • Die Zeichenfolge darf keinen Header haben.

    • Die für die Inference Pipeline verwendeten Features müssen dieselbe Reihenfolge haben wie die Features im Trainingsdatensatz.

    • Die Features muss durch Komma getrennt sein.

    • Datensätze müssen durch ein Zeilenumbruchzeichen getrennt sein.

    Im Folgenden finden Sie ein Beispiel für eine gültig formatierte CSV Zeichenfolge, die Sie in einer Inferenzanforderung angeben können.

    abc,0.0,"Doe, John",12345\ndef,1.1,"Doe, Jane",67890
  • application/json— der Datentyp für Zeichenketten JSON

    • Die im Datensatz für die Inference Pipeline verwendeten Features müssen die gleiche Reihenfolge haben wie die Features im Trainingsdatensatz.

    • Die Daten müssen ein bestimmtes Schema haben. Sie definieren ein Schema als instances Einzelobjekt mit einer Reihe von features. Jedes features-Objekt stellt eine Beobachtung dar.

    Im Folgenden finden Sie ein Beispiel für eine gültig formatierte JSON Zeichenfolge, die Sie in einer Inferenzanforderung angeben können.

    { "instances": [ { "features": ["abc", 0.0, "Doe, John", 12345] }, { "features": ["def", 1.1, "Doe, Jane", 67890] } ] }

Erstellen Sie einen Inferenz-Endpunkt mit Hilfe eines Jupyter Notebooks

Gehen Sie wie folgt vor, um Ihren Data-Wrangler-Flow zu exportieren, um eine Inference Pipeline zu erstellen.

Gehen Sie wie folgt vor, um mithilfe eines Jupyter Notebooks eine Inference Pipeline zu erstellen.

  1. Wählen Sie das + neben dem Knoten aus, die Sie exportieren möchten.

  2. Klicken Sie auf Exportieren nach.

  3. Wählen Sie SageMaker Inference Pipeline (über Jupyter Notebook).

  4. Führen Sie das Jupyter Notebook aus.

Wenn Sie das Jupyter Notebook ausführen, erstellt es einen Inferenz-Flow-Artefakt. Ein Inferenz-Flow-Artefakt ist eine Data-Wrangler-Flow-Datei mit zusätzlichen Metadaten, die zur Erstellung der seriellen Inference Pipeline verwendet werden. Der exportierte Knoten beinhaltet alle Transformationen der vorangehenden Knoten.

Wichtig

Data Wrangler braucht den Inference-Flow-Artefakt zum Ausführen der Inference Pipeline. Sie können Ihre eigene Flow-Datei nicht als Artefakt verwenden. Sie müssen sie anhand des o.a. Verfahrens erstellen.

In Python-Code exportieren

Gehen Sie wie folgt vor, um alle Schritte in Ihrem Datenfluss in eine Python-Datei zu exportieren, die Sie manuell in jeden Datenverarbeitungs-Workflow integrieren können.

Verwenden Sie das folgende Verfahren, um ein Jupyter Notebook zu erzeugen und es auszuführen, um Ihren Data-Wrangler-Flow nach Python-Code zu exportieren.

  1. Wählen Sie das + neben dem Knoten aus, die Sie exportieren möchten.

  2. Klicken Sie auf Exportieren nach.

  3. Wählen Sie Python-Code aus.

  4. Führen Sie das Jupyter Notebook aus.

Beispiel für einen Datenfluss, der zeigt, wie Sie Ihren Data Wrangler-Flow in der Data Wrangler-Konsole exportieren.

Sie müssen das Python-Skript ggf. so konfigurieren, dass es in Ihrer Pipeline ausgeführt werden kann. Wenn Sie beispielsweise eine Spark-Umgebung ausführen, stellen Sie sicher, dass Sie das Skript in einer Umgebung ausführen, die über Zugriffsberechtigungen verfügt AWS Ressourcen schätzen.

In den Amazon SageMaker Feature Store exportieren

Sie können Data Wrangler verwenden, um von Ihnen erstellte Funktionen in den Amazon SageMaker Feature Store zu exportieren. Ein Feature ist eine Spalte in Ihrem Datensatz. Feature Store ist ein zentraler Speicher für Features und die zugehörigen Metadaten. Mit dem Feature Store können Sie kuratierte Daten für die Entwicklung von Machine Learning (ML) erstellen, diese gemeinsam nutzen und verwalten. Zentrale Speicher sorgen dafür, dass Ihre Daten leichter auffindbar und wiederverwendbar sind. Weitere Informationen zum Feature Store finden Sie unter Amazon SageMaker Feature Store.

Ein zentrales Konzept im Feature Store ist eine Feature-Gruppe. Eine Feature-Gruppe ist eine Sammlung von Features, ihren Datensätzen (Beobachtungen) und den zugehörigen Metadaten. Sie ähnelt einer Tabelle in einer Datenbank.

Mit Data Wrangler können Sie u.a. folgende Dinge tun:

  • Eine bestehende Feature-Gruppe mit neuen Datensätzen aktualisieren. Ein Datensatz ist eine Beobachtung im Datensatz.

  • Aus einem Knoten in Ihrem Data-Wrangler-Flow eine neue Feature-Gruppe erstellen. Data Wrangler fügt die Beobachtungen aus Ihren Datensätzen als Datensätze in Ihre Feature-Gruppe ein.

Wenn Sie eine bestehende Feature-Gruppe aktualisieren, muss das Schema Ihres Datensatzes mit dem Schema der Feature-Gruppe übereinstimmen. Alle Datensätze in der Feature-Gruppe werden durch die Beobachtungen in Ihrem Datensatz ersetzt.

Sie können entweder ein Jupyter Notebook oder einen Zielknoten verwenden, um Ihre Feature-Gruppe mit den Beobachtungen im Datensatz zu aktualisieren.

Wenn Ihre Feature-Gruppen mit dem Iceberg-Tabellenformat über einen benutzerdefinierten Offline-Shop-Verschlüsselungsschlüssel verfügen, stellen Sie sicher, dass Sie dem, den Sie für den Amazon SageMaker Processing-Job verwenden, Berechtigungen zur Verwendung IAM dieses Schlüssels erteilen. Sie müssen ihm mindestens Berechtigungen zum Verschlüsseln der Daten erteilen, die Sie in Amazon S3 schreiben. Um die Berechtigungen zu erteilen, geben Sie der IAM Rolle die Möglichkeit, die GenerateDataKeyzu verwenden. Weitere Informationen zur Erteilung von Nutzungsberechtigungen für IAM Rollen AWS KMS Schlüssel finden Sie https://docs.aws.amazon.com/kms/latest/developerguide/key-policies.html

Destination Node

Wenn Sie eine Reihe von Datenverarbeitungsschritten, die Sie ausgeführt haben, an eine Feature-Gruppe ausgeben möchten, können Sie einen Zielknoten erstellen. Wenn Sie einen Zielknoten erstellen und ausführen, aktualisiert Data Wrangler anhand Ihrer Daten eine Feature-Gruppe. Sie können eine neue Feature-Gruppe auch über die Benutzeroberfläche des Zielknotens erstellen. Sobald Sie einen Zielknoten erstellt haben, erstellen Sie einen Processing-Job zur Ausgabe der Daten. Ein Verarbeitungsauftrag ist ein SageMaker Amazon-Verarbeitungsauftrag. Wenn Sie einen Zielknoten verwenden, werden auf diesem die Rechenressourcen ausgeführt, die für die Ausgabe der Daten erforderlich sind, die Sie in die Feature-Gruppe transformiert haben.

Mit einem Zielknoten können Sie einige oder alle der Transformationen exportieren, die Sie in Ihrem Data-Wrangler-Flow vorgenommen haben.

Gehen Sie wie folgt vor, um einen Zielknoten zu erstellen, um eine Feature-Gruppe mit den Beobachtungen aus Ihrem Datensatz zu aktualisieren.

Gehen Sie wie folgt vor, um eine Feature-Gruppe mithilfe eines Zielknotens zu aktualisieren.

Anmerkung

Sie können im Data-Wrangler-Flow die Option Job erstellen auswählen, um die Anweisungen zur Verwendung eines Processing-Jobs zur Aktualisierung der Feature-Gruppe anzuzeigen.

  1. Wählen Sie das Zeichen + neben dem Knoten, der den zu exportierenden Datensatz enthält.

  2. Wählen Sie unter Ziel hinzufügen die Option SageMaker Feature Store aus.

    Beispiel für einen Datenfluss, der zeigt, wie ein Ziel in der Data Wrangler-Konsole hinzugefügt wird.
  3. Wählen Sie die Feature-Gruppe aus (indem Sie doppelt darauf klicken). Data Wrangler prüft, ob das Schema der Feature-Gruppe mit dem Schema der Daten übereinstimmt, die Sie zur Aktualisierung der Feature-Gruppe verwenden.

  4. (Optional) Für Feature-Gruppen, die sowohl über einen Online- als auch über einen Offline-Speicher verfügen, wählen Sie die Option Nur in Offline-Speicher exportieren aus. Mit dieser Option wird der Offline-Speicher nur mit Beobachtungen aus Ihrem Datensatz aktualisiert.

  5. Sobald Data Wrangler das Schema Ihres Datensatzes validiert hat, wählen Sie Hinzufügen aus.

Gehen Sie wie folgt vor, um eine neue Feature-Gruppe mit Daten aus Ihrem Datensatz zu erstellen.

Sie können Ihre Feature-Gruppe mit Hilfe einer der folgenden Methoden speichern:

  • Online – Cache mit niedriger Latenz und hoher Verfügbarkeit für eine Feature-Gruppe, der die Suche nach Datensätzen in Echtzeit erlaubt. Der Online-Speicher erlaubt den schnellen Zugriff auf den aktuellsten Wert für einen Datensatz in einer Feature-Gruppe.

  • Offline – Speichert Daten für Ihre Feature-Gruppe in einem Bucket von Amazon S3. Sie können Ihre Daten offline speichern, wenn Sie keine Lesevorgänge mit niedriger Latenz (unter einer Sekunde) benötigen. Sie können einen Offline-Speicher für Features verwenden, die bei der Datenexploration, beim Modelltraining und bei der Batch-Inference verwendet werden.

  • Sowohl online als auch offline – Speichert Ihre Daten sowohl in einem Online- als auch in einem Offline-Speicher.

Gehen Sie wie folgt vor, um mithilfe eines Zielknotens eine Feature-Gruppe zu erstellen.

  1. Wählen Sie das Zeichen + neben dem Knoten, der den zu exportierenden Datensatz enthält.

  2. Wählen Sie unter Ziel hinzufügen die Option SageMaker Feature Store aus.

  3. Wählen Sie Feature-Gruppe erstellen aus.

  4. Wenn Ihr Datensatz im folgenden Dialogfeld keine Spalte mit der Uhrzeit des Ereignisses enthält, wählen Sie Spalte "EventTime" erstellen aus.

  5. Wählen Sie Weiter.

  6. Wählen Sie JSONSchema kopieren. Wenn Sie eine Feature-Gruppe erstellen, fügen Sie das Schema in die Feature-Definitionen ein.

  7. Wählen Sie Create (Erstellen) aus.

  8. Geben Sie unter Name der Feature-Gruppe einen Namen für Ihre Feature-Gruppe ein.

  9. Geben Sie unter Beschreibung (optional) eine Beschreibung an, damit Ihre Feature-Gruppe leichter auffindbar ist.

  10. Gehen Sie wie folgt vor, um eine Feature-Gruppe für einen Online-Speicher zu erstellen.

    1. Wählen Sie Speicher online aktivieren aus.

    2. Geben Sie für den Verschlüsselungsschlüssel für den Onlineshop einen an AWS verwalteter Verschlüsselungsschlüssel oder ein eigener Verschlüsselungsschlüssel.

  11. Gehen Sie wie folgt vor, um eine Feature-Gruppe für einen Offline-Speicher zu erstellen.

    1. Wählen Sie Speicher offline aktivieren aus. Geben Sie Werte für folgende Felder ein:

      • Name des S3-Buckets – Der Name des Buckets von Amazon S3, in dem die Feature-Gruppe gespeichert ist.

      • (Optional) Name des Datensatz-Verzeichnisses – Das Präfix von Amazon S3, das Sie zum Speichern der Feature-Gruppe verwenden.

      • IAMRolle ARN — Die IAM Rolle, die Zugriff auf den Feature Store hat.

      • Tabellenformat – Das Tabellenformat Ihres Offline-Speichers. Sie können Glue oder Iceberg angeben. Glue ist das Standardformat.

      • Verschlüsselungsschlüssel für den Offline-Speicher — Standardmäßig verwendet Feature Store einen AWS Key Management Service verwalteter Schlüssel, aber Sie können das Feld verwenden, um einen eigenen Schlüssel anzugeben.

    2. Geben Sie Werte für folgende Felder ein:

      • Name des S3-Buckets – Der Name des Buckets, in dem die Feature-Gruppe gespeichert ist.

      • (Optional) Name des Datensatz-Verzeichnisses – Das Präfix von Amazon S3, das Sie zum Speichern der Feature-Gruppe verwenden.

      • IAMRolle ARN — Die IAM Rolle, die Zugriff auf den feature store hat.

      • Verschlüsselungsschlüssel für den Offline-Speicher — Standardmäßig verwendet Feature Store einen AWS verwalteter Schlüssel, aber Sie können das Feld verwenden, um einen eigenen Schlüssel anzugeben.

  12. Klicken Sie auf Weiter.

  13. Wählen Sie JSON.

  14. Entfernen Sie die Platzhalterklammern im Fenster.

  15. Fügen Sie den JSON Text aus Schritt 6 ein.

  16. Klicken Sie auf Weiter.

  17. Wählen Sie für RECORDIDENTIFIERFEATURENAMEdie Spalte in Ihrem Datensatz aus, die eindeutige Bezeichner für jeden Datensatz in Ihrem Datensatz hat.

  18. Wählen Sie für EVENTTIMEFEATURENAMEdie Spalte mit den Zeitstempelwerten aus.

  19. Klicken Sie auf Weiter.

  20. (Optional) Fügen Sie Tags hinzu, um Ihre Feature-Gruppe leichter auffindbar zu machen.

  21. Klicken Sie auf Weiter.

  22. Wählen Sie Feature-Gruppe erstellen aus.

  23. Gehen Sie zurück zu Ihrem Data-Wrangler-Flow und wählen Sie das Aktualisierungssymbol neben der Suchleiste für Feature-Gruppen.

Anmerkung

Wenn Sie bereits einen Zielknoten für eine Feature-Gruppe innerhalb eines Flows erstellt haben, können Sie keinen weiteren Zielknoten für dieselbe Feature-Gruppe erstellen. Wenn Sie einen weiteren Zielknoten für dieselbe Feature-Gruppe erstellen möchten, müssen Sie eine weitere Flow-Datei erstellen.

Gehen Sie wie folgt vor, um einen Data-Wrangler-Job zu erstellen.

Erstellen Sie von der Seite Datenfluss aus einen Job und wählen Sie die Zielknoten aus, die Sie exportieren möchten.

  1. Wählen Sie Job erstellen aus. Die folgende Abbildung zeigt den Bereich, der angezeigt wird, wenn Sie Job erstellen ausgewählt haben.

  2. Geben Sie unter Jobname den Namen des Exportjobs an.

  3. Wählen Sie die Zielknoten aus, die Sie exportieren möchten.

  4. (Optional) Geben Sie als KMSAusgabeschlüssel einenARN, eine ID oder einen Alias eines AWS KMS Schlüssel. Ein KMS Schlüssel ist ein kryptografischer Schlüssel. Mit dem Schlüssel können Sie die Ausgabedaten des Jobs verschlüsseln. Weitere Informationen zur AWS KMS Schlüssel, siehe AWS Key Management Service.

  5. Die folgende Abbildung zeigt die Seite Job konfigurieren mit geöffneter Registerkarte Job-Konfiguration.

    Beispiel für eine Auftragsseite zum Erstellen eines Datenflusses in der Data Wrangler-Konsole.

    (Optional) Wählen Sie unter Trainierte Parameter die Option Erneut anpassen aus, wenn Sie Folgendes getan haben:

    • Ihren Datensatz getestet

    • Eine Transformation angewendet haben, die anhand Ihrer Daten eine neue Spalte im Datensatz erstellt

    Weitere Informationen zum erneuten Anpassen der von Ihnen an einem gesamten Datensatz vorgenommenen Transformationen finden Sie unter Transformationen für den gesamten Datensatz erneut anpassen und exportieren.

  6. Wählen Sie Job konfigurieren aus.

  7. (Optional) Konfigurieren Sie den Data-Wrangler-Job. Sie können die folgenden Konfigurationen vornehmen:

    • Job-Konfiguration

    • Konfiguration des Spark-Speichers

    • Netzwerkkonfiguration

    • Tags

    • Parameter

    • Zeitpläne zuordnen

  8. Wählen Sie Ausführen aus.

Jupyter notebook

Gehen Sie wie folgt vor, um ein Jupyter-Notizbuch in den Amazon SageMaker Feature Store zu exportieren.

Gehen Sie wie folgt vor, um ein Jupyter Notebook zu erzeugen und es auszuführen, um Ihren Data-Wrangler-Flow in den Feature Store zu exportieren.

  1. Wählen Sie das + neben dem Knoten aus, die Sie exportieren möchten.

  2. Klicken Sie auf Exportieren nach.

  3. Wählen Sie Amazon SageMaker Feature Store (über Jupyter Notebook).

  4. Führen Sie das Jupyter Notebook aus.

Beispieldatenfluss, der zeigt, wie Sie Ihren Data Wrangler-Flow in der Data Wrangler-Konsole exportieren.

Beim Ausführen eines Jupyter Notebooks wird ein Data-Wrangler-Job ausgeführt. Wenn Sie einen Data Wrangler-Job ausführen, wird ein Verarbeitungsjob gestartet. SageMaker Der Processing-Job nimmt den Flow in einen Online- und Offline-Feature-Store auf.

Wichtig

Die IAM Rolle, die Sie für die Ausführung dieses Notebooks verwenden, muss Folgendes haben AWS verwaltete Richtlinien sind angehängt: AmazonSageMakerFullAccess undAmazonSageMakerFeatureStoreAccess.

Sie brauchen nur einen Online- oder Offline-Feature-Store zu aktivieren, wenn Sie eine Feature-Gruppe erstellen. Sie können auch beide aktivieren. Um die Erstellung eines Online-Speichers zu deaktivieren, stellen Sie EnableOnlineStore auf False ein:

# Online Store Configuration online_store_config = { "EnableOnlineStore": False }

Das Notebook erstellt anhand der Spaltennamen und Typen des exportierten Datenrahmens ein Feature-Gruppen-Schema, das zur Erstellung einer Feature-Gruppe verwendet wird. Eine Feature-Gruppe ist eine Gruppe von Features, die im Feature Store definiert sind, um einen Datensatz zu beschreiben. Die Feature-Gruppe definiert das Schema und die Features, die in der Feature-Gruppe enthalten sind. Die Definition einer Feature-Gruppe besteht aus einer Liste von Features, einem Feature-Namen für die Datensatz-ID, einem Feature-Namen zur Ereigniszeit sowie Konfigurationen für den zugehörigen Online- und Offline-Speicher.

Jedes Feature in einer Feature-Gruppe kann von einem der folgenden Typen sein: Zeichenfolge, Bruch oder Integral. Wenn es sich bei einer Spalte in Ihrem exportierten Datenrahmen nicht um einen dieser Typen handelt, wird standardmäßig String verwendet.

Es folgt ein Beispiel für ein Feature-Gruppen-Schema.

column_schema = [ { "name": "Height", "type": "long" }, { "name": "Input", "type": "string" }, { "name": "Output", "type": "string" }, { "name": "Sum", "type": "string" }, { "name": "Time", "type": "string" } ]

Darüber hinaus müssen Sie einen Namen für die Datensatz-ID und einen Namen für das Feature zur Ereigniszeit angeben:

  • Der Name der Datensatz-ID ist der Name des Features, dessen Wert einen im Feature Store definierten Datensatz eindeutig angibt. Nur der aktuellste Datensatz je Kennungswert wird im Online-Speicher gespeichert. Der Name der Feature-Datensatzkennung muss einer der Namen der Feature-Definitionen sein.

  • Der Name der Feature-Ereigniszeit ist der Name des Features, das die EventTime eines Datensatzes in einer Feature-Gruppe speichert. Ein EventTime ist ein Zeitpunkt, an dem ein neues Ereignis eintritt, das der Erstellung oder Aktualisierung eines Datensatzes in einem Feature entspricht. Alle Datensätze in der Feature-Gruppe müssen einen entsprechenden EventTime haben.

Das Notebook erstellt anhand dieser Konfigurationen eine Feature-Gruppe, verarbeitet maßstabsgetreu Ihre Daten und nimmt die verarbeiteten Daten dann in Ihre Online- und Offline-Feature-Stores auf. Weitere Informationen finden Sie unter Datenquellen und Datenaufnahme.

Das Notebook erstellt anhand dieser Konfigurationen eine Feature-Gruppe, verarbeitet maßstabsgetreu Ihre Daten und nimmt die verarbeiteten Daten dann in Ihre Online- und Offline-Feature-Stores auf. Weitere Informationen finden Sie unter Datenquellen und Datenaufnahme.

Transformationen für den gesamten Datensatz erneut anpassen und exportieren

Wenn Sie Daten importieren, verwendet Data Wrangler eine Stichprobe der Daten, um die Kodierungen anzuwenden. Standardmäßig verwendet Data Wrangler die ersten 50.000 Zeilen als Stichprobe. Sie können jedoch auch den gesamten Datensatz importieren oder eine andere Methode zur Stichprobennahme verwenden. Weitere Informationen finden Sie unter Import.

Die folgenden Transformationen erstellen anhand Ihrer Daten eine Spalte im Datensatz:

Wenn Sie zum Importieren Ihrer Daten Stichproben verwendet haben, verwenden die vorangehenden Transformationen nur die Daten aus der Stichprobe, um die Spalte zu erstellen. Bei der Transformation wurden ggf. nicht alle relevanten Daten verwendet. Wenn Sie z. B. die Transformation Encode Categorical verwenden, gab es im gesamten Datensatz möglicherweise eine Kategorie, die in der Stichprobe nicht enthalten war.

Sie können die Transformationen entweder mit Hilfe eines Zielknotens oder eines Jupyter Notebooks an den gesamten Datensatz anpassen. Wenn Data Wrangler die Transformationen im Flow exportiert, erstellt es einen SageMaker Verarbeitungsjob. Wenn der Processing-Job abgeschlossen ist, speichert Data Wrangler die folgenden Dateien entweder am Standardspeicherort in Amazon S3 oder an einem von Ihnen angegebenen S3-Speicherort:

  • Die Data-Wrangler-Flow-Datei, die die Transformationen angibt, die erneut an den Datensatz angepasst werden

  • Der Datensatz, auf den die angepassten Transformationen angewendet wurden

Sie können in Data Wrangler eine Data-Wrangler-Flow-Datei öffnen und die Transformationen auf einen anderen Datensatz anwenden. Wenn Sie die Transformationen z. B. auf einen Trainingsdatensatz angewendet haben, können Sie die Data-Wrangler-Flow-Datei öffnen und sie dafür verwenden, die Transformationen auf einen Datensatz anzuwenden, der zur Inference verwendet wird.

Informationen zur Verwendung von Zielknoten zur Neuanpassung von Transformationen und zum Exportieren finden Sie auf den folgenden Seiten:

Gehen Sie wie folgt vor, um ein Jupyter Notebook auszuführen, die Transformationen neu anzupassen und die Daten zu exportieren.

Gehen Sie wie folgt vor, um ein Jupyter Notebook auszuführen, die Transformationen neu anzupassen und Ihren Data-Wrangler-Flow zu exportieren.

  1. Wählen Sie das + neben dem Knoten aus, die Sie exportieren möchten.

  2. Klicken Sie auf Exportieren nach.

  3. Wählen Sie den Speicherort aus, an den Sie die Daten exportieren möchten.

  4. Stellen Sie für das refit_trained_params Objekt refit auf True ein.

  5. Geben Sie für das output_flow Feld den Namen der Ausgabe-Flow-Datei mit den angepassten Transformationen an.

  6. Führen Sie das Jupyter Notebook aus.

Erstellen Sie einen Zeitplan für die automatische Verarbeitung neuer Daten

Wenn Sie regelmäßig Daten verarbeiten, können Sie einen Zeitplan für die automatische Ausführung des Processing-Jobs erstellen. Sie können z. B. einen Zeitplan erstellen, der einen Processing-Job automatisch ausführt, wenn Sie neue Daten erhalten. Weitere Informationen zu diesen Processing-Jobs finden Sie unter Exportieren zu Amazon S3 und In den Amazon SageMaker Feature Store exportieren.

Wenn Sie einen Job erstellen, müssen Sie eine IAM Rolle angeben, die über Berechtigungen zum Erstellen des Jobs verfügt. Standardmäßig ist die IAM Rolle, die Sie für den Zugriff auf Data Wrangler verwenden, die. SageMakerExecutionRole

Die folgenden Berechtigungen ermöglichen Data Wrangler den Zugriff auf EventBridge und die Ausführung von EventBridge Verarbeitungsjobs:

  • Fügen Sie Folgendes hinzu AWS Verwaltete Richtlinie für die Amazon SageMaker Studio Classic-Ausführungsrolle, die Data Wrangler folgende Berechtigungen einräumt: EventBridge

    arn:aws:iam::aws:policy/AmazonEventBridgeFullAccess

    Weitere Informationen zu der Richtlinie finden Sie unter AWS verwaltete Richtlinien für EventBridge.

  • Fügen Sie der IAM Rolle, die Sie angeben, wenn Sie einen Job in Data Wrangler erstellen, die folgende Richtlinie hinzu:

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "sagemaker:StartPipelineExecution", "Resource": "arn:aws:sagemaker:Region:AWS-account-id:pipeline/data-wrangler-*" } ] }

    Wenn Sie die IAM Standardrolle verwenden, fügen Sie die vorherige Richtlinie zur Amazon SageMaker Studio Classic-Ausführungsrolle hinzu.

    Fügen Sie der Rolle die folgende Vertrauensrichtlinie hinzu, EventBridge damit sie übernommen werden kann.

    { "Effect": "Allow", "Principal": { "Service": "events.amazonaws.com" }, "Action": "sts:AssumeRole" }
Wichtig

Wenn Sie einen Zeitplan erstellen, erstellt Data Wrangler einen eventRule in. EventBridge Es fallen Gebühren sowohl für die von Ihnen erstellten Ereignisregeln als auch für die Instances an, die zur Ausführung des Processing-Jobs verwendet werden.

Informationen zur EventBridge Preisgestaltung finden Sie unter EventBridge Amazon-Preise. Informationen zur Verarbeitung von Stellenpreisen finden Sie unter SageMaker Amazon-Preise.

Sie können mithilfe einer der folgenden Methoden einen Zeitplan erstellen:

  • CRONAusdrücke

    Anmerkung

    Data Wrangler unterstützt die folgenden Ausdrücke nicht:

    • LW#

    • Abkürzungen für Tage

    • Abkürzungen für Monate

  • RATEAusdrücke

  • Wiederkehrende – Legen Sie ein stündliches oder tägliches Intervall für die Ausführung des Jobs fest.

  • Bestimmte Zeit – Legen Sie bestimmte Tage und Uhrzeiten für die Ausführung des Jobs fest.

In den folgenden Abschnitten finden Sie Verfahren zum Erstellen von Jobs.

CRON

Gehen Sie wie folgt vor, um einen Zeitplan mit einem CRON Ausdruck zu erstellen.

Gehen Sie wie folgt vor, um einen Zeitplan mit einem CRON Ausdruck anzugeben.

  1. Öffnen Sie Ihren Data-Wrangler-Flow.

  2. Wählen Sie Job erstellen aus.

  3. (Optional) Geben Sie als KMSAusgabeschlüssel einen AWS KMS Taste, um die Ausgabe des Jobs zu konfigurieren.

  4. Wählen Sie Weiter, 2. aus. Job konfigurieren.

  5. Wählen Sie Zeitpläne zuordnen aus.

  6. Wählen Sie Neuen Zeitplan erstellen aus.

  7. Geben Sie für Name des Zeitplans den Namen des Zeitplans an.

  8. Wählen Sie für Run Frequency die Option CRON.

  9. Geben Sie einen gültigen CRON Ausdruck an.

  10. Wählen Sie Create (Erstellen) aus.

  11. (Optional) Wählen Sie Anderen Zeitplan hinzufügen, um den Job nach einem zusätzlichen Zeitplan auszuführen.

    Anmerkung

    Sie können maximal zwei Zeitpläne zuordnen. Die Zeitpläne sind unabhängig voneinander und beeinflussen sich nicht gegenseitig, es sei denn, die Zeiten überschneiden sich.

  12. Wählen Sie eine der folgenden Optionen aus:

    • Planen und sofort ausführen – Data Wrangler, der Job wird sofort ausgeführt und wird dann nach den Zeitplänen ausgeführt.

    • Nur nach Zeitplan – Data Wrangler, der Job wird nur nach den von Ihnen angegebenen Zeitplänen ausgeführt.

  13. Wählen Sie Ausführen aus

RATE

Gehen Sie wie folgt vor, um einen Zeitplan mit einem RATE Ausdruck zu erstellen.

Gehen Sie wie folgt vor, um einen Zeitplan mit einem RATE Ausdruck anzugeben.

  1. Öffnen Sie Ihren Data-Wrangler-Flow.

  2. Wählen Sie Job erstellen aus.

  3. (Optional) Geben Sie als KMSAusgabeschlüssel einen AWS KMS Taste, um die Ausgabe des Jobs zu konfigurieren.

  4. Wählen Sie Weiter, 2. aus. Job konfigurieren.

  5. Wählen Sie Zeitpläne zuordnen aus.

  6. Wählen Sie Neuen Zeitplan erstellen aus.

  7. Geben Sie für Name des Zeitplans den Namen des Zeitplans an.

  8. Wählen Sie für Häufigkeit der Ausführung die Option Rate aus.

  9. Geben Sie für den Wert einen ganzzahligen Wert an.

  10. Wählen Sie für Einheit eine der folgenden Optionen aus:

    • Minuten

    • Stunden

    • Tage

  11. Wählen Sie Create (Erstellen) aus.

  12. (Optional) Wählen Sie Anderen Zeitplan hinzufügen, um den Job nach einem zusätzlichen Zeitplan auszuführen.

    Anmerkung

    Sie können maximal zwei Zeitpläne zuordnen. Die Zeitpläne sind unabhängig voneinander und beeinflussen sich nicht gegenseitig, es sei denn, die Zeiten überschneiden sich.

  13. Wählen Sie eine der folgenden Optionen aus:

    • Planen und sofort ausführen – Data Wrangler, der Job wird sofort ausgeführt und wird dann nach den Zeitplänen ausgeführt.

    • Nur nach Zeitplan – Data Wrangler, der Job wird nur nach den von Ihnen angegebenen Zeitplänen ausgeführt.

  14. Wählen Sie Ausführen aus

Recurring

Gehen Sie wie folgt vor, um einen Zeitplan zu erstellen, der einen Job regelmäßig ausführt.

Gehen Sie wie folgt vor, um einen Zeitplan mit einem CRON Ausdruck anzugeben.

  1. Öffnen Sie Ihren Data-Wrangler-Flow.

  2. Wählen Sie Job erstellen aus.

  3. (Optional) Geben Sie als KMSAusgabeschlüssel einen AWS KMS Taste, um die Ausgabe des Jobs zu konfigurieren.

  4. Wählen Sie Weiter, 2. aus. Job konfigurieren.

  5. Wählen Sie Zeitpläne zuordnen aus.

  6. Wählen Sie Neuen Zeitplan erstellen aus.

  7. Geben Sie für Name des Zeitplans den Namen des Zeitplans an.

  8. Achten Sie darauf, dass für Häufigkeit der Ausführung standardmäßig die Option Wiederkehrend ausgewählt ist.

  9. Geben Sie für Alle x Stunden die stündliche Häufigkeit an, mit der der Job während des Tages ausgeführt wird. Gültig sind ganzzahlige Werte im Bereich einschl. 1 und 23.

  10. Wählen Sie für An den Tagen eine der folgenden Optionen aus:

    • Täglich

    • An den Wochenenden

    • Wochentags

    • Tage auswählen

    1. (Optional) Wenn Sie Tage auswählen ausgewählt haben, wählen Sie die Wochentage aus, an denen der Job ausgeführt werden soll.

    Anmerkung

    Der Zeitplan wird jeden Tag zurückgesetzt. Wenn Sie einen Job so planen, dass er alle fünf Stunden ausgeführt wird, wird er während des Tages zu den folgenden Zeiten ausgeführt:

    • 00:00

    • 05:00

    • 10:00

    • 15:00

    • 20:00

  11. Wählen Sie Create (Erstellen) aus.

  12. (Optional) Wählen Sie Anderen Zeitplan hinzufügen, um den Job nach einem zusätzlichen Zeitplan auszuführen.

    Anmerkung

    Sie können maximal zwei Zeitpläne zuordnen. Die Zeitpläne sind unabhängig voneinander und beeinflussen sich nicht gegenseitig, es sei denn, die Zeiten überschneiden sich.

  13. Wählen Sie eine der folgenden Optionen aus:

    • Planen und sofort ausführen – Data Wrangler, der Job wird sofort ausgeführt und wird dann nach den Zeitplänen ausgeführt.

    • Nur nach Zeitplan – Data Wrangler, der Job wird nur nach den von Ihnen angegebenen Zeitplänen ausgeführt.

  14. Wählen Sie Ausführen aus

Specific time

Gehen Sie wie folgt vor, um einen Zeitplan zu erstellen, der einen Job zu bestimmten Zeiten ausführt.

Gehen Sie wie folgt vor, um einen Zeitplan mit einem CRON Ausdruck anzugeben.

  1. Öffnen Sie Ihren Data-Wrangler-Flow.

  2. Wählen Sie Job erstellen aus.

  3. (Optional) Geben Sie als KMSAusgabeschlüssel einen AWS KMS Taste, um die Ausgabe des Jobs zu konfigurieren.

  4. Wählen Sie Weiter, 2. aus. Job konfigurieren.

  5. Wählen Sie Zeitpläne zuordnen aus.

  6. Wählen Sie Neuen Zeitplan erstellen aus.

  7. Geben Sie für Name des Zeitplans den Namen des Zeitplans an.

  8. Wählen Sie Create (Erstellen) aus.

  9. (Optional) Wählen Sie Anderen Zeitplan hinzufügen, um den Job nach einem zusätzlichen Zeitplan auszuführen.

    Anmerkung

    Sie können maximal zwei Zeitpläne zuordnen. Die Zeitpläne sind unabhängig voneinander und beeinflussen sich nicht gegenseitig, es sei denn, die Zeiten überschneiden sich.

  10. Wählen Sie eine der folgenden Optionen aus:

    • Planen und sofort ausführen – Data Wrangler, der Job wird sofort ausgeführt und wird dann nach den Zeitplänen ausgeführt.

    • Nur nach Zeitplan – Data Wrangler, der Job wird nur nach den von Ihnen angegebenen Zeitplänen ausgeführt.

  11. Wählen Sie Ausführen aus

Sie können Amazon SageMaker Studio Classic verwenden, um die Jobs anzuzeigen, deren Ausführung geplant ist. Ihre Verarbeitungsaufträge werden innerhalb von Pipelines ausgeführt. Jeder Processing-Job hat seine eigene Pipeline. Er wird als Verarbeitungsschritt innerhalb der Pipeline ausgeführt. Sie können sich die Zeitpläne anzeigen lassen, die Sie in einer Pipeline erstellt haben. Weitere Informationen zum Anzeigen einer Pipeline finden Sie unter Anzeigen einer Pipeline.

Gehen Sie wie folgt vor, um sich die von Ihnen geplanten Jobs anzeigen zu lassen.

Gehen Sie wie folgt vor, um sich die von Ihnen geplanten Jobs anzeigen zu lassen.

  1. Öffnen Sie Amazon SageMaker Studio Classic.

  2. Öffnen Sie Pipelines

  3. Sehen Sie sich die Pipelines für die Jobs an, die Sie erstellt haben.

    Die Pipeline, in der der Job ausgeführt wird, verwendet den Namen des Jobs als Präfix. Wenn Sie z. B. einen Job mit dem Namen housing-data-feature-enginnering erstellt haben, lautet der Name der Pipeline data-wrangler-housing-data-feature-engineering.

  4. Wählen Sie die Pipeline aus, die Ihren Job enthält.

  5. Status der Pipelines anzeigen. Pipelines mit dem Status Erfolgreich haben den Processing-Job erfolgreich ausgeführt.

Gehen Sie wie folgt vor, um die Ausführung des Processing-Jobs zu beenden:

Um die Ausführung eines Processing-Jobs zu beenden, löschen Sie die Ereignisregel, die den Zeitplan angibt. Indem eine Ereignisregel gelöscht wird, werden keine mit dem Zeitplan verknüpften Jobs mehr ausgeführt. Informationen zum Löschen einer Regel finden Sie unter EventBridge Amazon-Regel deaktivieren oder löschen.

Sie können die mit den Zeitplänen verknüpften Pipelines auch beenden und löschen. Informationen zum Stoppen einer Pipeline finden Sie unter StopPipelineExecution. Hinweise zum Löschen einer Pipeline finden Sie unter DeletePipeline.