Datenquellen und Datenaufnahme - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Datenquellen und Datenaufnahme

Datensätze werden Ihren Feature-Gruppen durch Aufnahme hinzugefügt. Je nach gewünschtem Anwendungsfall können die aufgenommenen Datensätze innerhalb der Featuregruppe gespeichert werden oder nicht. Dies hängt von der Speicherkonfiguration ab, ob Ihre Featuregruppe den Offline- oder den Online-Speicher verwendet. Der Offline-Speicher wird als historische Datenbank verwendet, die in der Regel für die Datenexploration, das Modelltraining mit maschinellem Lernen (ML) und die Batch-Inferenz verwendet wird. Der Online-Speicher wird für die Echtzeitsuche nach Datensätzen verwendet, was in der Regel für die Bereitstellung von ML-Modellen verwendet wird. Weitere Informationen zu den Konzepten und der Aufnahme von Features Store finden Sie unter Feature Store-Konzepte.

Es gibt mehrere Möglichkeiten, Ihre Daten in den Amazon SageMaker Feature Store zu übertragen. Feature Store bietet einen einzigen API-Aufruf für die Datenaufnahme namensPutRecord, mit dem Sie Daten stapelweise oder aus Streaming-Quellen aufnehmen können. Sie können Amazon SageMaker Data Wrangler verwenden, um Funktionen zu entwickeln und Ihre Funktionen dann in Ihren Feature Store aufzunehmen. Sie können Amazon EMR auch für die Erfassung von Batch-Daten über einen Spark-Konnektor verwenden.

In den folgenden Themen werden wir den Unterschied erörtern zwischen

Streaming-Erfassung

Sie können Streaming-Quellen wie Kafka oder Kinesis als Datenquelle verwenden, aus der Datensätze extrahiert werden, und Datensätze für Trainings, Inferenzen oder zur Erstellung von Funktionen direkt in den Online-Speicher einspeisen. Datensätze können mithilfe des synchronen API-Aufrufs in Ihre Feature-Gruppe aufgenommen werden PutRecord. Da es sich um einen synchronen API-Aufruf handelt, können kleine Batches von Updates in einem einzigen API-Aufruf übertragen werden. Auf diese Weise können Sie die hohe Aktualität der Feature-Werte aufrechterhalten und Werte veröffentlichen, sobald ein Update erkannt wird. Diese werden auch als Streaming-Funktionen bezeichnet.

Data Wrangler mit Feature Store

Data Wrangler ist eine Funktion von Studio Classic, die eine end-to-end Lösung zum Importieren, Vorbereiten, Transformieren, Funktionalisieren und Analysieren von Daten bietet. Data Wrangler ermöglicht es Ihnen, Ihre Funktionen zu entwickeln und sie in die Funktionsgruppen Ihres Online- oder Offline-Speichers aufzunehmen.

Mit der folgenden Anleitung wird ein Jupyter-Notizbuch exportiert, das den gesamten Quellcode enthält, der zum Erstellen einer Feature Store-Funktionsgruppe erforderlich ist, mit der Ihre Funktionen aus Data Wrangler einem Online- oder Offline-Store hinzugefügt werden.

Die Anweisungen zum Exportieren Ihres Data Wrangler-Datenflusses in den Feature Store auf der Konsole hängen davon ab, ob Sie die Option aktiviert oder als Standarderfahrung aktiviert haben. Amazon SageMaker Studio Amazon SageMaker Studio Klassisch

  1. Öffnen Sie die Studio-Konsole, indem Sie den Anweisungen unter folgen. Starten Sie Amazon SageMaker Studio

  2. Wählen Sie im linken Bereich Daten aus, um die Dropdownliste zu erweitern.

  3. Wählen Sie in der Dropdownliste Data Wrangler aus.

  4. Wenn Sie bereits eine Instanz von Amazon SageMaker Canvas ausgeführt haben, wählen Sie Open Canvas.

    Wenn keine SageMaker Canvas-Instanz läuft, wählen Sie In Canvas ausführen.

  5. Wählen Sie auf der SageMaker Canvas-Konsole im linken Navigationsbereich Data Wrangler aus.

  6. Wählen Sie Datenflüsse aus, um Ihre Datenflüsse anzuzeigen.

  7. Wählen Sie +, um die Dropdownliste zu erweitern.

  8. Wählen Sie Datenfluss exportieren, um die Dropdownliste zu erweitern.

  9. Wählen Sie Im SageMaker Feature Store speichern (über JupyterLab Notebook).

  10. Wählen Sie unter Datenfluss als Notizbuch exportieren eine der folgenden Optionen aus:

    • Laden Sie eine lokale Kopie herunter, um den Datenfluss auf Ihren lokalen Computer herunterzuladen.

    • Exportieren Sie an einen S3-Standort, um den Datenfluss an einen Amazon Simple Storage Service-Standort herunterzuladen, und geben Sie den Amazon S3 S3-Standort ein oder wählen Sie Durchsuchen, um Ihren Amazon S3 S3-Standort zu finden.

  11. Wählen Sie Export aus.

Nachdem die Funktionsgruppe erstellt wurde, können Sie auch Daten aus mehreren Funktionsgruppen auswählen und zusammenführen, um neue technische Funktionen in Data Wrangler zu erstellen und dann Ihren Datensatz in einen Amazon-S3-Bucket zu exportieren.

Weitere Informationen zum Exportieren in den Feature Store finden Sie unter In den SageMaker Feature Store exportieren.