Erstellen eines Datensatzes - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Erstellen eines Datensatzes

In den folgenden Abschnitten wird beschrieben, wie Sie einen Datensatz in Amazon SageMaker Canvas erstellen. Für benutzerdefinierte Modelle können Sie Datensätze für Tabellen- und Bilddaten erstellen. Für R-eady-to-use Modelle können Sie tabellarische Datensätze und Bilddatensätze sowie Dokumentdatensätze verwenden. Wählen Sie Ihren Arbeitsablauf anhand der folgenden Informationen aus:

Anmerkung

Informationen zum Importieren eines Dokumentdatensatzes für R-eady-to-use Modelle, die Dokumentdaten akzeptieren, finden Sie im Importieren von Dokumentdaten Workflow in der Dokumentation zu R-eady-to-use Modellen.

Ein Datensatz kann aus mehreren Dateien bestehen. Beispielsweise könnten Sie über mehrere Dateien mit Inventardaten im CSV-Format verfügen. Sie können diese Dateien zusammen als Datensatz hochladen, sofern das Schema (oder die Spaltennamen und Datentypen) der Dateien übereinstimmen.

Canvas unterstützt auch die Verwaltung mehrerer Versionen Ihres Datensatzes. Wenn Sie einen Datensatz erstellen, wird die erste Version als V1 bezeichnet. Sie können eine neue Version Ihres Datensatzes erstellen, indem Sie Ihren Datensatz aktualisieren. Sie können eine manuelle Aktualisierung durchführen oder einen automatisierten Zeitplan für die Aktualisierung Ihres Datensatzes mit neuen Daten einrichten. Weitere Informationen finden Sie unter Aktualisieren eines Datensatzes.

Wenn Sie Ihre Daten in Canvas importieren, stellen Sie sicher, dass sie die Anforderungen in der folgenden Tabelle erfüllen. Die Einschränkungen hängen vom Modelltyp ab, den Sie erstellen.

Limit 2-Kategorie-, 3+-Kategorie-, numerische und Zeitreihenmodelle Modelle zur Textvorhersage Modelle zur Bildvorhersage *Dokumentdaten für R-eady-to-use Modelle

Unterstützte Dateitypen

CSV und Parquet (lokaler Upload, Amazon S3 oder Datenbanken)

JSON (Datenbanken)

CSV und Parquet (lokaler Upload, Amazon S3 oder Datenbanken)

JSON (Datenbanken)

JPG, PNG

PDF, JPG, PNG, TIFF

Maximale Dateigröße

5 GB (für alle Dateien im Datensatz)

5 MB (für alle Dateien im Datensatz)

30 MB pro Image

5 MB pro Dokument

Maximale Anzahl von Dateien in tabellarischen Datensätzen

50

50

N/A

N/A

Maximale Anzahl von Dateien in tabellarischen Datensätzen für einen einzigen manuellen Upload

20

20

N/A

N/A

Maximale Anzahl von Spalten

1000

1000

N/A

N/A

Maximale Anzahl von Einträgen (Zeilen, Bilder oder Dokumente) für Schnellaufbau

50.000 Zeilen

7500 Zeilen

5000 Bilder

N/A

Maximale Anzahl von Einträgen (Zeilen, Bilder oder Dokumente) für Standardaufbau

N/A

150.000 Zeilen

180.000 Bilder

N/A

Mindestanzahl von Einträgen (Zeilen) für Schnellaufbau

Kategorie 2: 500 Zeilen

Kategorie 3+, numerisch, Zeitreihen: N/A

N/A

N/A

Mindestanzahl von Einträgen (Zeilen, Bilder oder Dokumente) für Standardaufbau

250 Zeilen

50 Reihen

50 Bilder

N/A

Mindestanzahl von Einträgen (Zeilen oder Bilder) pro Etikett

N/A

25 Reihen

25 Reihen

N/A

Minimale Anzahl von Beschriftungen

Kategorie 2: 2

Kategorie 3+: 3

Numerisch, Zeitreihen: N/A

2

2

N/A

Mindeststichprobengröße für Zufallsstichproben

500

N/A

N/A

Maximaler Stichprobenumfang für Zufallsstichproben

40 000

N/A

N/A

Maximale Anzahl von Beschriftungen

Kategorie 2: 2

Kategorie 3+, numerisch, Zeitreihen: N/A

1000

1000

N/A

*Dokumentdaten werden derzeit nur für R-eady-to-use Modelle unterstützt, die Dokumentdaten akzeptieren. Sie können kein benutzerdefiniertes Modell mit Dokumentdaten erstellen.

Beachten Sie auch die folgenden Einschränkungen:

  • Für tabellarische Daten erlaubt Canvas nicht die Auswahl von Dateien mit anderen Erweiterungen als .csv, .parquet, .parq und .pqt sowohl für den lokalen Upload als auch für den Amazon S3-Import. CSV-Dateien müssen durch Kommas getrennt sein und dürfen keine Zeilenumbrüche enthalten, es sei denn, sie bezeichnen eine neue Zeile.

  • Beachten Sie bei tabellarischen Daten, die Parquet-Dateien verwenden, Folgendes:

    • Parquet-Dateien können keine komplexen Typen wie Karten und Listen enthalten.

    • Die Spaltennamen von Parquet-Dateien dürfen keine Leerzeichen enthalten.

    • Wenn Sie die Komprimierung verwenden, müssen Parquet-Dateien entweder den Komprimierungstyp Gzip oder Snappy verwenden. Weitere Informationen zu den oben genannten Komprimierungstypen finden Sie in der gzip-Dokumentation und der Snappy-Dokumentation.

  • Wenn Sie über Bilder ohne Beschriftungverfügen, müssen Sie diese beschriften, bevor Sie Ihr Modell erstellen. Informationen zum Zuweisen von Beschriftungen zu Bildern in der Canvas-Anwendung finden Sie unterBearbeiten Sie einen Bilddatensatz.

  • Wenn Sie automatische Datensatzaktualisierungen oder automatische Konfigurationen für Batch-Vorhersagen einrichten, können Sie in Ihrer Canvas-Anwendung insgesamt nur 20 Konfigurationen erstellen. Weitere Informationen finden Sie unter Automatisierungen verwalten.

Nachdem Sie einen Datensatz importiert haben, können Sie Ihre Datensätze jederzeit auf der Seite Datensätze anzeigen.

Importieren von Tabellendaten

Mit tabellarischen Datensätzen können Sie Modelle für kategoriale, numerische Prognosen, Zeitreihenprognosen und Textvorhersagen erstellen. Sehen Sie sich die Tabelle mit den Einschränkungen im vorherigen Abschnitt Datensatz importieren an, um sicherzustellen, dass Ihre Daten die Anforderungen für tabellarische Daten erfüllen (beachten Sie, dass die Grenzwerte für den Stichprobenumfang nur gelten, wenn Sie eine Vorschau Ihrer Daten anzeigen, bevor Sie Ihr Modell erstellen).

Gehen Sie wie folgt vor, um einen tabellarischen Datensatz in Canvas zu importieren:

  1. Öffnen Sie Ihre SageMaker Canvas-Anwendung.

  2. Wählen Sie im linken Navigationsbereich die Option Datensätze aus.

  3. Wählen Sie Importieren aus.

  4. Geben Sie im Popup-Dialogfeld im Feld Datensatzname einen Namen für den Datensatz ein und wählen Sie Erstellen aus.

  5. Öffnen Sie auf der Importseite das Dropdownmenü Datenquelle.

  6. Wählen Sie Ihre Datenquelle aus:

    • Um Dateien von Ihrem Computer hochzuladen, wählen Sie Lokaler Upload.

    • Um Daten aus einer anderen Quelle zu importieren, z. B. einem Amazon S3-Bucket oder einer Snowflake-Datenbank, suchen Sie in der Suchdatenquellenleiste nach Ihrer Datenquelle. Wählen Sie dann die Kachel für die gewünschte Datenquelle aus.

      Anmerkung

      Sie können nur Daten aus den Kacheln importieren, die über eine aktive Verbindung verfügen. Wenn Sie eine Verbindung zu einer Datenquelle herstellen möchten, die für Sie nicht verfügbar ist, wenden Sie sich an Ihren Administrator. Wenn Sie Administrator sind, finden Sie weitere Informationen unter Verbinden zu Datenquellen.

    Das folgende Bildschirmfoto zeigt das Dropdown-Menü Datenquelle.

    
      Screenshot, der das Dropdownmenü Datenquelle und eine Suche nach einer Datenquelle in der Suchleiste zeigt.
  7. (Optional) Wenn Sie zum ersten Mal eine Verbindung zu einer Amazon Redshift- oder Snowflake-Datenbank herstellen, wird ein Dialogfeld zum Herstellen einer Verbindung angezeigt. Füllen Sie das Dialogfeld mit Ihren Anmeldeinformationen aus und wählen Sie Verbindung erstellen. Wenn Sie bereits über eine Verbindung verfügen, wählen Sie Ihre Verbindung aus.

  8. Wählen Sie aus Ihrer Datenquelle die zu importierenden Dateien aus. Für den lokalen Upload und Import aus Amazon S3 können Sie Dateien auswählen. Nur für Amazon S3 haben Sie auch die Möglichkeit, den S3-URI oder ARN Ihres Buckets direkt in das Feld S3-Endpunkt eingeben einzugeben und dann zu importierende Dateien auszuwählen. Für Datenbankquellen können Sie Tabellen aus dem linken Navigationsbereich drag-and-drop daten.

  9. (Optional) Für tabellarische Datenquellen, die SQL-Abfragen unterstützen (wie Amazon Redshift, Amazon Athena oder Snowflake), können Sie In SQL bearbeiten wählen, um vor dem Import SQL-Abfragen zu erstellen und Tabellen zu verknüpfen. Weitere Informationen finden Sie unter Verknüpfen von Daten, die Sie in SageMaker Canvas importiert haben.

    Der folgende Screenshot zeigt die Ansicht SQL bearbeiten für eine Amazon Athena-Datenquelle.

    
      Screenshot, der eine SQL-Abfrage in der Ansicht SQL bearbeiten für Amazon Athena-Daten zeigt.
  10. (Optional) Sie können Vorschau wählen, um vor dem Import eine Vorschau Ihres Datensatzes anzuzeigen. Bei tabellarischen Datensätzen werden Ihnen dadurch bis zu den ersten 100 Zeilen Ihres Datensatzes angezeigt. Der folgende Screenshot zeigt Ihnen den Import Vorschaubildschirm

  11. Wenn Sie bereit sind, Ihre Daten zu importieren, wählen Sie Daten importieren.

Während Ihr Datensatz in Canvas importiert wird, können Sie sehen, dass Ihre Datensätze auf der Seite Datensätze aufgelistet sind. Auf dieser Seite können Sie Anzeigen Ihrer Datensatzdaten.

Wenn der Status Ihres Datensatzes als Ready angezeigt wird, hat Canvas Ihre Daten erfolgreich importiert und Sie können mit der Erstellung eines Modells fortfahren.

Wenn Sie eine Verbindung zu einer Datenquelle haben, z. B. zu einer Amazon Redshift-Datenbank oder einem SaaS-Connector, können Sie zu dieser Verbindung zurückkehren. Für Amazon Redshift und Snowflake können Sie eine weitere Verbindung hinzufügen, indem Sie einen weiteren Datensatz erstellen, zur Seite Daten importieren zurückkehren und die Datenquellen-Kachel für diese Verbindung auswählen. Im Drop-down-Menü können Sie die vorherige Verbindung öffnen oder Verbindung hinzufügen wählen.

Anmerkung

Für SaaS-Plattformen können Sie nur eine Verbindung pro Datenquelle haben.

Importieren von Bilddaten

Mit Bilddatensätzen können Sie benutzerdefinierte Modelle zur Bildvorhersage mit einer einzigen Beschriftung erstellen, die eine Beschriftung für ein Bild vorhersagen. Lesen Sie sich die Einschränkungen im vorherigen Abschnitt Datensatz importieren durch, um sicherzustellen, dass Ihr Bilddatensatz die Anforderungen für Bilddaten erfüllt.

Anmerkung

Sie können nur Bilddatensätze aus einem lokalen Datei-Upload oder einem Amazon S3-Bucket importieren. Außerdem müssen Sie für Bilddatensätze mindestens 25 Bilder pro Beschriftung haben.

Gehen Sie wie folgt vor, um einen Bilddatensatz in Canvas zu importieren:

  1. Öffnen Sie Ihre SageMaker Canvas-Anwendung.

  2. Wählen Sie im linken Navigationsbereich die Option Datensätze aus.

  3. Wählen Sie Erstellen.

  4. Wählen Sie im Dropdown-Menü Bild aus.

  5. Geben Sie im Popup-Dialogfeld im Feld Datensatzname einen Namen für den Datensatz ein und wählen Sie Erstellen aus.

  6. Öffnen Sie auf der Importseite das Dropdownmenü Datenquelle.

  7. Wählen Sie Ihre -Datenquelle aus. Um eine Datei vom Computer hochzuladen, wählen Sie Lokales Hochladen. Um Dateien aus Amazon S3 zu importieren, wählen Sie Amazon S3 aus.

  8. Wählen Sie auf Ihrem Computer oder Amazon S3-Bucket die Bilder oder Ordner mit Bildern aus, die Sie hochladen möchten.

  9. Wenn Sie bereit sind, Ihre Daten zu importieren, wählen Sie Daten importieren.

Während Ihr Datensatz in Canvas importiert wird, können Sie sehen, dass Ihre Datensätze auf der Seite Datensätze aufgelistet sind. Auf dieser Seite können Sie Anzeigen Ihrer Datensatzdaten.

Wenn der Status Ihres Datensatzes als Ready angezeigt wird, hat Canvas Ihre Daten erfolgreich importiert und Sie können mit der Erstellung eines Modells fortfahren.

Wenn Sie Ihr Modell erstellen, können Sie Ihren Bilddatensatz bearbeiten und Beschriftungen zuweisen oder neu zuweisen, Bilder hinzufügen oder Bilder aus Ihrem Datensatz löschen. Weitere Informationen zum Bearbeiten Ihres Bilddatensatzes finden Sie unter Bearbeiten Sie einen Bilddatensatz.

Importieren von Dokumentdaten

Die R-eady-to-use Modelle für Kostenanalysen, Identitätsdokumentanalysen, Dokumentanalysen und Dokumentabfragen unterstützen Dokumentdaten. Sie können kein benutzerdefiniertes Modell mit Dokumentdaten erstellen.

Mit Dokumentdatensätzen können Sie Vorhersagen für Kostenanalysen, Identitätsdokumentanalysen, Dokumentanalysen und Dokumentabfragen erstelleneady-to-use . Sehen Sie sich die Tabelle mit den Einschränkungen in Erstellen eines Datensatzes diesem Abschnitt an, um sicherzustellen, dass Ihr Dokumentdatensatz die Anforderungen für Dokumentdaten erfüllt.

Anmerkung

Sie können nur Dokumentdatensätze aus einem lokalen Datei-Upload oder einem Amazon S3-Bucket importieren.

Gehen Sie wie folgt vor, um einen Dokumentdatenbestand in Canvas zu importieren:

  1. Öffnen Sie Ihre SageMaker Canvas-Anwendung.

  2. Wählen Sie im linken Navigationsbereich die Option Datensätze aus.

  3. Wählen Sie Erstellen.

  4. Wählen Sie im Dropdown-Menü Dokument aus.

  5. Geben Sie im Popup-Dialogfeld im Feld Datensatzname einen Namen für den Datensatz ein und wählen Sie Erstellen aus.

  6. Öffnen Sie auf der Importseite das Dropdownmenü Datenquelle.

  7. Wählen Sie Ihre -Datenquelle aus. Um eine Datei vom Computer hochzuladen, wählen Sie Lokales Hochladen. Um Dateien aus Amazon S3 zu importieren, wählen Sie Amazon S3 aus.

  8. Wählen Sie auf Ihrem Computer oder Amazon S3-Bucket die Dokumentdateien aus, die Sie hochladen möchten.

  9. Wenn Sie bereit sind, Ihre Daten zu importieren, wählen Sie Daten importieren.

Während Ihr Datensatz in Canvas importiert wird, können Sie sehen, dass Ihre Datensätze auf der Seite Datensätze aufgelistet sind. Auf dieser Seite können Sie Anzeigen Ihrer Datensatzdaten.

Wenn der Status Ihres Datensatzes als Ready angezeigt wird, hat Canvas Ihre Daten erfolgreich importiert.

Auf der Seite Datensätze können Sie Ihren Datensatz auswählen, um ihn in der Vorschau anzuzeigen. Dabei werden Ihnen bis zu den ersten 100 Dokumente Ihres Datensatzes angezeigt.

Anzeigen Ihrer Datensatzdaten

Für jeden Ihrer Datensätze können Sie alle Dateien in einem Datensatz, den Versionsverlauf des Datensatzes und alle Konfigurationen für die auto Aktualisierung des Datensatzes anzeigen. Auf der Seite Datensätze können Sie auch Aktionen wie Aktualisieren eines Datensatzes oder Erstellen eines benutzerdefinierten Modells initiieren.

Um die Details für einen Datensatz anzuzeigen, führen Sie die folgenden Schritte aus:

  1. Öffnen Sie die SageMaker Canvas-Anwendung.

  2. Wählen Sie im linken Navigationsbereich die Option Datensätze aus.

  3. Wählen Sie Ihren Datensatz aus der Liste der Datensätze aus.

Auf der Registerkarte Daten können Sie eine Vorschau Ihrer Daten sehen. Wenn Sie Datensatzdetails wählen, können Sie alle Dateien sehen, die Teil Ihres Datensatzes sind. Wählen Sie eine Datei aus, um nur die Daten aus dieser Datei in der Vorschau zu sehen. Bei Bilddatensätzen zeigt Ihnen die Vorschau nur die ersten 100 Bilder Ihres Datensatzes.

Auf der Registerkarte Versionsverlauf sehen Sie eine Liste aller Versionen Ihres Datensatzes. Bei jeder Aktualisierung eines Datensatzes wird eine neue Version erstellt. Weitere Informationen zum Aktualisieren eines Datensatzes finden Sie unter Aktualisieren eines Datensatzes. Der folgende Screenshot zeigt die Registerkarte Versionsverlauf in der Canvas-Anwendung.


    Screenshot der Registerkarte Versionsverlauf für einen Datensatz mit einer Liste der Datensatzversionen.

Auf der Registerkarte Automatische Updates können Sie automatische Updates für den Datensatz aktivieren und eine Konfiguration einrichten, um Ihren Datensatz regelmäßig zu aktualisieren. Weitere Informationen zum Einrichten von automatischen Updates für einen Datensatz finden Sie unter Konfigurieren Sie automatische Updates für einen Datensatz. Der folgende Screenshot zeigt die Registerkarte Automatische Updates mit aktivierten auto Updates und einer Liste der automatischen Aktualisierungsaufträge, die für den Datensatz ausgeführt wurden.


    Screenshot der Registerkarte Automatische Updates für einen Datensatz, der die aktivierten automatische Updates und eine Liste von Autoaktualisierungsaufträgen zeigt.