Import - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Import

Sie können Amazon verwenden SageMaker Data Wrangler zum Importieren von Daten aus den folgendenDatenquellen: Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift und Snowflake. Das Dataset, das Sie importieren, kann bis zu 1000 Spalten enthalten.

Einige Datenquellen ermöglichen es Ihnen, mehrere hinzuzufügenDatenverbindungen:

  • Sie können eine Verbindung mit mehreren Amazon Redshift Redshift-Clustern herstellen. Jeder Cluster wird zu einer Datenquelle.

  • Sie können jede Athena-Datenbank in Ihrem Konto abfragen, um Daten aus dieser Datenbank zu importieren.

Wenn Sie ein Dataset aus einer Datenquelle importieren, wird es in Ihrem Datenfluss angezeigt. Data Wrangler leitet automatisch den Datentyp jeder Spalte in Ihrem Datensatz ab. Um diese Typen zu ändern, wählen Sie dieDatentypenSchritt und wählenBearbeiten von Datentypenaus.

Wenn Sie Daten aus Athena oder Amazon Redshift importieren, werden die importierten Daten automatisch in der Standardeinstellung gespeichert SageMaker Einen S3-Bucket fürAWSEine Region, in der Sie Studio verwenden. Darüber hinaus speichert Athena Daten, die Sie in Data Wrangler in der Vorschau anzeigen, in diesem Bucket. Weitere Informationen hierzu finden Sie unter Importierter Datenspeicher.

Wichtig

Der standardmäßige Amazon S3 S3-Bucket verfügt möglicherweise nicht über die am wenigsten zulässigen Sicherheitseinstellungen wie Bucket-Richtlinie und serverseitige Verschlüsselung (SSE). Wir empfehlen dringend, dass SieFügen Sie eine Bucket-Richtlinie hinzu, um den Zugriff auf in Data Wrangler importierte Datasets einzuschränkenaus.

Wichtig

Wenn Sie die verwaltete Richtlinie für SageMaker verwenden, empfehlen wir Ihnen dringend, sie auf die restriktivste Richtlinie zu reduzieren, mit der Sie Ihren Anwendungsfall durchführen können. Weitere Informationen finden Sie unter Erteilen Sie einer IAM-Rolle die Berechtigung zur Verwendung von Data Wrangler.

Importieren von Daten aus Amazon S3

Mit Amazon Simple Storage Service (Amazon S3) können Sie jederzeit beliebige Mengen von Daten von überall aus im Internet speichern und abrufen. Sie können diese Aufgaben mit derAWS Management ConsoleDies ist eine einfache und intuitive Webschnittstelle, und die Amazon S3 S3-API. Wenn Sie Ihren Datensatz lokal gespeichert haben, empfehlen wir Ihnen, ihn zu einem S3-Bucket hinzuzufügen, um ihn in Data Wrangler zu importieren. Weitere Informationen erhalten Sie unterHochladen eines Objekts zu einem Bucketim Amazon Simple Storage Service-Benutzerhandbuch.

Data Wrangler verwendetS3 Selectdamit Sie eine Vorschau Ihrer Amazon S3 S3-Dateien in Data Wrangler anzeigen können. Für jede Dateivorschau fallen Standardgebühren an. Weitere Informationen zur Preisgestaltung finden Sie unterAnfragen & Datenabrufe-TabAmazon S3 — Preiseaus.

Wichtig

Wenn Sie vorhaben, einen Datenfluss zu exportieren und einen Data Wrangler-Job zu starten, nehmen Sie Daten in einen SageMaker-Feature-Store auf oder erstellen Sie einen SageMaker Pipeline, beachten Sie, dass diese Integrationen erfordern, dass sich Amazon S3 S3-Eingabedaten in derselben befindenAWSRegion.

Wichtig

Wenn Sie eine CSV-Datei importieren, stellen Sie sicher, dass sie die folgenden Anforderungen erfüllt:

  • Ein Datensatz in Ihrem Datensatz darf nicht länger als eine Zeile sein.

  • Ein umgekehrter Schrägstrich\, ist das einzig gültige Escape-Zeichen.

  • Ihr Datensatz muss eines der folgenden Trennzeichen verwenden:

    • Komma —,

    • Doppelpunkt:

    • Semikolon —;

    • Rohr —|

    • Registerkarte —[TAB]

Um Speicherplatz zu sparen, können Sie komprimierte CSV-Dateien importieren.

Data Wrangler gibt Ihnen die Möglichkeit, entweder den gesamten Datensatz zu importieren oder einen Teil davon zu testen. Es bietet die folgenden Stichprobenoptionen:

  • Keine — Importieren Sie das gesamte Dataset.

  • Erstes K — Beispiel für die ersten K-Zeilen des Datensatzes, wobei K eine Ganzzahl ist, die Sie angeben.

  • Randomisiert — Nimmt eine Zufallsstichprobe einer von Ihnen angegebenen Größe an.

Nachdem Sie Ihre Daten importiert haben, können Sie auch den Sampling-Transformator verwenden, um ein oder mehrere Beispiele aus Ihrem gesamten Datensatz zu entnehmen. Weitere Informationen zum Probenahmetransformator finden Sie unterSamplingaus.

Sie können entweder eine einzelne Datei oder mehrere Dateien als Datensatz importieren. Sie können den Multifile-Importvorgang verwenden, wenn Sie ein Dataset haben, das in separate Dateien partitioniert ist. Es nimmt alle Dateien aus einem Amazon S3 S3-Verzeichnis und importiert sie als einen einzelnen Datensatz. Informationen zu den Dateitypen, die Sie importieren können, und wie Sie sie importieren können, finden Sie im Folgenden.

Single File Import

Sie können einzelne Dateien in folgenden Formatformaten importieren:

  • Durch Komma getrennte Werte (CSV)

  • Parquet

  • Javascript-Objektnotation (JSON)

  • Optimized Row Columnar (ORC)

Für in JSON formatierte Dateien unterstützt Data Wrangler sowohl JSON-Zeilen (.jsonl) als auch JSON-Dokumente (.json). Wenn Sie eine Vorschau Ihrer Daten anzeigen, wird der JSON automatisch im Tabellenformat angezeigt. Für verschachtelte JSON-Dokumente, die größer als 5 MB sind, zeigt Data Wrangler das Schema für die Struktur und die Arrays als Werte im Dataset an. Verwenden derAbflachen strukturiertundArray explodierenOperatoren, um die verschachtelten Werte im Tabellenformat anzuzeigen. Weitere Informationen finden Sie unter Unnest JSON-Daten und Explode-Array.

Wenn Sie ein Dataset auswählen, können Sie es umbenennen, den Dateityp angeben und die erste Zeile als Kopfzeile identifizieren.

Sie können einen Datensatz, den Sie in mehrere Dateien in einem Amazon S3 S3-Bucket partitioniert haben, in einem einzigen Importschritt importieren.

So importieren Sie einen Datensatz aus einer einzelnen Datei, die Sie in Amazon S3 gespeichert haben, in Data Wrangler:

  1. Wenn Sie derzeit nicht auf derImportWählen Sie auf der RegisterkarteImportaus.

  2. UNDERDatenaufbereitung, wählenAmazon S3Um dieS3-Datenquelle importierenAnzeigen.

  3. Wählen Sie aus der Tabelle der verfügbaren S3-Buckets einen Bucket aus und navigieren Sie zu dem Datensatz, den Sie importieren möchten.

  4. Wählen Sie die Datei aus, die Sie importieren möchten. Wenn Ihr Datensatz keine .csv- oder .parkett-Erweiterung hat, wählen Sie den Datentyp aus derDateitypDropdown-Liste.

  5. Wenn Ihre CSV-Datei einen Header enthält, aktivieren Sie das Kontrollkästchen nebenFügen Sie Header zur Tabelleaus.

  6. Verwenden der-Vorschau-Tabelle, um eine Vorschau Ihres Datensatzes anzuzeigen. Diese Tabelle zeigt bis zu 100 Zeilen.

  7. In der-DetailsÜbernehmen oder ändern Sie dasNameundDateitypFür Ihren Dataset. Wenn du einNamedas Leerzeichen enthält, werden diese Leerzeichen durch Unterstriche ersetzt, wenn Ihr Datensatz importiert wird.

  8. Geben Sie die Sampling-Konfiguration an, die Sie verwenden möchten.

  9. Klicken Sie aufImportieren des Datasetsaus.

Multifile Import

Im Folgenden sind die Anforderungen für den Import mehrerer Dateien aufgeführt:

  • Die Dateien müssen sich im selben Ordner Ihres Amazon S3 S3-Buckets befinden.

  • Die Dateien müssen entweder denselben Header teilen oder keinen Header haben.

Jede Datei muss in einem der folgenden Formate vorliegen:

  • CSV

  • Parquet

  • Optimized Row Columnar (ORC)

  • JSON

Gehen Sie wie nachfolgend beschrieben vor, um mehrere Dateien zu importieren.

So importieren Sie einen Datensatz aus mehreren Dateien, die Sie in einem Amazon S3 S3-Verzeichnis gespeichert haben, in Data Wrangler

  1. Wenn Sie derzeit nicht auf derImportWählen Sie auf der RegisterkarteImportaus.

  2. UNDERDatenaufbereitung, wählenAmazon S3Um dieS3-Datenquelle importierenAnzeigen.

  3. Wählen Sie in der Tabelle der verfügbaren S3-Buckets den Bucket aus, der den Ordner enthält, den Sie importieren möchten.

  4. Wählen Sie den Ordner aus, der die Dateien enthält, die Sie importieren möchten. Jede Datei muss in einem der unterstützten Formate vorliegen. Ihre Dateien müssen denselben Datentyp haben.

  5. Wenn Ihr Ordner CSV-Dateien mit Headern enthält, aktivieren Sie das Kontrollkästchen nebenDie erste Zeile ist Headeraus.

  6. Wenn Dateien in anderen Ordnern verschachtelt sind, aktivieren Sie das Kontrollkästchen nebenVerschachtelte Verzeichnisse einschließenaus.

  7. (Optional) Wählen SieHinzufügen von Dateinamenspaltefügen Sie dem Datensatz eine Spalte hinzu, die den Dateinamen für jede Beobachtung anzeigt.

  8. (Optional) Standardmäßig zeigt Data Wrangler keine Vorschau eines Ordners an. Sie können die Vorschau aktivieren, indem Sie das Blau wählenVorschau aus-Knopf. Eine Vorschau zeigt die ersten 10 Zeilen der ersten 10 Dateien im Ordner. Die folgenden Bilder zeigen Ihnen, wie Sie eine Vorschau für ein aus verschachtelten Verzeichnissen erstelltes Dataset aktivieren.

  9. In der-DetailsÜbernehmen oder ändern Sie dasNameundDateitypFür Ihren Dataset. Wenn du einNamedas Leerzeichen enthält, werden diese Leerzeichen durch Unterstriche ersetzt, wenn Ihr Datensatz importiert wird.

  10. Geben Sie die Sampling-Konfiguration an, die Sie verwenden möchten.

  11. Klicken Sie aufImportieren des Datasetsaus.

Importieren von Daten aus Athena

Amazon Athena ist ein interaktiver Abfrageservice, der die Analyse von Daten direkt in Amazon S3 mit Standard-SQL erleichtert. Mit einigen Aktionen in der AWS Management Console können Sie Athena auf die in Amazon S3 gespeicherten Daten verweisen und Ad-hoc-Abfragen mithilfe von Standard-SQL ausführen, deren Ergebnisse Sie innerhalb von Sekunden erhalten. Weitere Informationen hierzu finden Sie unterWas ist Amazon Athena?im Amazon Athena Athena-Benutzerhandbuch.

Sie können Athena-Datenbanken abfragen und die Ergebnisse in Data Wrangler importieren. Um diese Importoption verwenden zu können, müssen Sie mindestens eine -Datenbank in Athena erstellen. Weitere Informationen erhalten Sie unterErste Schritteim Amazon Athena Athena-Benutzerhandbuch.

Beachten Sie im Hinblick auf die Athena-Importoption in Data Wrangler Folgendes:

Data Wrangler verwendet den standardmäßigen Amazon S3 S3-Bucket im selbenAWSRegion, in der sich Ihre Studio-Instanz befindet, um Athena-Abfrageergebnisse zu speichern. Es erstellt temporäre Tabellen in dieser Datenbank, um die Abfrageausgabe in diesen Amazon S3 S3-Bucket zu verschieben. Es löscht diese Tabellen, nachdem Daten importiert wurden, jedoch die Datenbank,sagemaker_data_wrangler, bleibt bestehen. Weitere Informationen hierzu finden Sie unter Importierter Datenspeicher.

Wenn SieAWS Lake FormationStellen Sie bei Athena sicher, dass Ihre IAM-Berechtigungen für Lake Formation keine IAM-Berechtigungen für die Datenbank überschreibensagemaker_data_wrangleraus.

So importieren Sie einen Datensatz aus Athena in Data Wrangler

  1. Auf derImportieren von Daten-Bildschirm, wählen SieAmazon Athenaaus.

  2. FürDatenkatalog, wählen Sie einen Datenkatalog aus.

  3. Verwenden derDatenbankDropdown-Liste zur Auswahl der Datenbank, die Sie abfragen möchten. Wenn Sie eine Datenbank auswählen, können Sie eine Vorschau aller Tabellen in Ihrer Datenbank mit derTabelles aufgeführt unter-Detailsaus.

  4. Klicken Sie aufErweiterte Konfigurationaus.

    Probenahme aktivierenDiese Option ist standardmäßig ausgewählt. Wenn die Probenahme aktiviert ist, probt und importiert Data Wrangler etwa 50% der abgefragten Daten. Deaktivieren Sie dieses Kontrollkästchen, um die Probenahme zu deaktivieren.

  5. Geben Sie einen Wert fürArbeitsgruppeWenn Sie einen benutzen.

  6. Geben Sie Ihre Abfrage in den Abfrage-Editor ein und verwenden Sie dieFühren Sie Folgendes aus:-Schaltfläche zum Ausführen der Abfrage. Nach einer erfolgreichen Abfrage können Sie im Editor eine Vorschau Ihres Ergebnisses anzeigen.

  7. Um die Ergebnisse Ihrer Abfrage zu importieren, wählen SieImportaus.

Nachdem Sie das vorhergehende Verfahren abgeschlossen haben, wird der Datensatz, den Sie abgefragt und importiert haben, im Data Wrangler-Flow angezeigt.

Importieren von Daten aus Amazon Redshift

Amazon Redshift ist ein vollständig verwalteter Data-Warehouse-Service in Petabytegröße in der Cloud. Der erste Schritt zur Erstellung eines Data Warehouse besteht darin, eine Reihe von Knoten zu starten, die als Amazon-Redshift-Cluster bezeichnet werden. Nachdem Sie den Cluster bereitgestellt haben, können Sie Ihren Datensatz hochladen und Abfragen zur Datenanalyse durchführen.

Sie können sich mit einem oder mehreren Amazon Redshift Redshift-Clustern in Data Wrangler verbinden und diese abfragen. Um diese Importoption verwenden zu können, müssen Sie mindestens einen Cluster in Amazon Redshift erstellen. Weitere Informationen erhalten Sie unterErste Schritte mit Amazon Redshiftaus.

Sie können die Ergebnisse Ihrer Amazon Redshift Redshift-Abfrage an einem der folgenden Orte ausgeben:

  • Der standardmäßige Amazon S3 S3-Bucket

  • Ein von Ihnen spezifizierter Amazon S3 S3-Ausgabespeicherort

Der standardmäßige Amazon S3 S3-Bucket befindet sich im selbenAWSRegion, in der sich Ihre Studio-Instanz befindet, um Amazon Redshift Redshift-Abfrageergebnisse zu speichern. Weitere Informationen finden Sie unter Importierter Datenspeicher.

Entweder für den standardmäßigen Amazon S3 S3-Bucket oder den von Ihnen angegebenen Bucket haben Sie die folgenden Verschlüsselungsoptionen:

  • DerAWSServiceseitige Verschlüsselung mit einem von Amazon S3 verwalteten Schlüssel (SSE-S3)

  • Importieren in &S3;AWS Key Management Service(KMS) Schlüssel, den Sie angeben

Importieren in &S3;AWS KMSkey ist ein Verschlüsselungsschlüssel, den Sie erstellen und verwalten. Weitere Informationen zu KMS-Schlüsseln finden Sie unterAWS Key Management Serviceaus.

Sie können eineAWS KMSSchlüssel mit dem Schlüssel ARN oder dem ARN IhresAWSKonto.

Wenn Sie die verwaltete IAM-Richtlinie verwenden,AmazonSageMakerFullAccess, um einer Rolle die Berechtigung zur Verwendung von Data Wrangler in Studio zu erteilen,DatenbankbenutzerName muss das Präfix habensagemaker_accessaus.

Gehen Sie wie folgt vor, um zu erfahren, wie Sie einen neuen Cluster hinzufügen.

Anmerkung

Data Wrangler verwendet die Amazon Redshift Data API mit temporären Anmeldeinformationen. Weitere Informationen zu dieser API finden Sie unterVerwenden der Amazon Redshift Data APIim Amazon Redshift Clusterverwaltungshandbuch.

So stellen Sie eine Verbindung mit einem Amazon Redshift Cluster her

  1. Wählen Sie Import.

  2. Klicken Sie auf+unterHinzufügen von Datenverbindungaus.

  3. Klicken Sie aufAmazon Redshiftaus.

  4. Klicken Sie aufTemporäre Anmeldeinformationen (IAM)zumTypaus.

  5. Geben Sie einVerbindungsnameaus. Dies ist ein Name, der von Data Wrangler verwendet wird, um diese Verbindung zu identifizieren.

  6. den Wert einCluster Identifier (Cluster-Kennung)Um anzugeben, mit welchem Cluster Sie eine Verbindung herstellen möchten. Hinweis: Geben Sie nur die Cluster-Kennung und nicht den vollständigen Endpunkt des Amazon-Redshift-Clusters ein.

  7. den Wert einDatabase Name (Datenbankname)der Datenbank, mit der Sie sich verbinden möchten.

  8. Geben Sie einDatenbankbenutzerUm den Benutzer zu identifizieren, den Sie verwenden möchten, um eine Verbindung mit der -Datenbank herzustellen.

  9. FürUNLOAD-IAM-Rolle, geben Sie den ARN der IAM-Rolle der Rolle ein, die der Amazon Redshift Redshift-Cluster annehmen sollte, um Daten in Amazon S3 zu verschieben und zu schreiben. Weitere Informationen zu dieser Rolle finden Sie unterAmazon Redshift autorisieren, auf andere zuzugreifenAWSDienstleistungen in Ihrem Namenim Amazon Redshift Clusterverwaltungshandbuch.

  10. Wählen Sie Connect (Verbinden) aus.

  11. (Optional) FürAmazon S3-Ausgabespeicherort, geben Sie den S3-URI an, um die Abfrageergebnisse zu speichern.

  12. (Optional) FürKMS-Schlüssel-IDangeben, geben Sie den ARN desAWS KMS-Schlüssel oder Alias. Die folgende Abbildung zeigt Ihnen, wo Sie einen der Schlüssel imAWS Management Consoleaus.

Die folgende Abbildung zeigt alle Felder aus dem vorherigen Verfahren.

Nachdem Ihre Verbindung erfolgreich hergestellt wurde, wird sie als Datenquelle unterImportieren von Datenaus. Wählen Sie diese Datenquelle aus, um Ihre Datenbank abzufragen und Daten zu importieren.

So fragen Sie Daten aus Redshift ab und importieren sie

  1. Wählen Sie die Verbindung aus, von der Sie abfragen möchtenDatenquellenaus.

  2. Wählen Sie eineSchemaaus. Weitere Informationen zu Amazon-Redshift-Schemas finden Sie unterSchemasim Amazon Redshift Database Developer Guide.

  3. UNDERErweiterte Konfiguration,Probenahme aktivierenDiese Option ist standardmäßig ausgewählt. Wenn Sie dieses Kontrollkästchen nicht deaktivieren, probt und importiert Data Wrangler etwa 50% der abgefragten Daten. Deaktivieren Sie dieses Kontrollkästchen, um die Probenahme zu deaktivieren.

  4. Geben Sie Ihre Abfrage in den Abfrage-Editor ein und verwenden Sie dieFühren Sie Folgendes aus:-Schaltfläche zum Ausführen der Abfrage. Nach einer erfolgreichen Abfrage können Sie im Editor eine Vorschau Ihres Ergebnisses anzeigen.

  5. SelectImportieren des Datasetsum den abgefragten Datensatz zu importieren.

  6. Geben Sie einName des Datensatznamensaus. Wenn du einName des Datensatznamensdas Leerzeichen enthält, werden diese Leerzeichen durch Unterstriche ersetzt, wenn Ihr Datensatz importiert wird.

  7. Wählen Sie Hinzufügen.

Daten aus Databricks importieren (JDBC)

Sie können Databricks als Datenquelle für Ihr Amazon verwenden SageMaker Daten-Wrangler-Fluss. Um ein Dataset aus Databricks zu importieren, verwenden Sie die Importfunktion JDBC (Java Database Connectivity), um auf Ihre Databricks-Datenbank zuzugreifen. Geben Sie nach dem Zugriff auf die Datenbank eine SQL-Abfrage an, um die Daten abzurufen und zu importieren.

Wir gehen davon aus, dass Sie einen laufenden Databricks-Cluster haben und Ihren JDBC-Treiber darauf konfiguriert haben. Weitere Informationen finden Sie in den folgenden Databricks-Dokumentationsseiten:

Data Wrangler speichert Ihre JDBC-URL inAWS Secrets Manageraus. Sie müssen Ihr Amazon geben SageMaker Berechtigungen für Studio IAM-Ausführungsrolle zur Verwendung von Secrets Manager. Führen Sie die folgenden Schritte aus, um Berechtigungen zu erteilen.

Gehen Sie wie folgt vor, um Secrets Manager Berechtigungen zu erteilen.

  1. Melden Sie sich bei der AWS Management Console an, und öffnen Sie die IAM-Konsole unter https://console.aws.amazon.com/iam/.

  2. Wählen Sie Roles.

  3. Geben Sie in der Suchleiste das Amazon an SageMaker Diese -Ausführungsrolle SageMaker Studio benutzt.

  4. Wählen Sie die Rolle aus.

  5. Wählen Sie Add permissions.

  6. Klicken Sie aufErstellen von eingebundenen Richtlinienaus.

  7. Für-Service, spezifizierenSecrets Managerund wähle es aus.

  8. FürAktionen, wählen Sie das Pfeilsymbol nebenVerwaltung von Berechtigungenaus.

  9. Klicken Sie aufPutResourcePolicyaus.

  10. FürRessourcen, wählenSpezifischeaus.

  11. Wählen Sie das Kontrollkästchen nebenIrgendwelche in diesem Kontoaus.

  12. Wählen Sie Review policy (Richtlinie prüfen).

  13. FürNameGeben Sie einen Namen an.

  14. Wählen Sie Create Policy (Richtlinie erstellen) aus.

Sie können Partitionen verwenden, um Ihre Daten schneller zu importieren. Partitionen geben Data Wrangler die Möglichkeit, die Daten parallel zu verarbeiten. Standardmäßig verwendet Data Wrangler 2 Partitionen. In den meisten Anwendungsfällen bieten 2 Partitionen nahezu optimale Datenverarbeitungsgeschwindigkeiten.

Wenn Sie mehr als 2 Partitionen angeben, können Sie auch eine Spalte angeben, um die Daten zu partitionieren. Der Typ der Werte in der Spalte muss numerisch oder Datum sein.

Wir empfehlen, Partitionen nur zu verwenden, wenn Sie verstehen, wie die Struktur der Daten und wie sie verarbeitet werden.

Gehen Sie wie folgt vor, um Ihre Daten aus einer Databricks-Datenbank zu importieren.

Gehen Sie wie folgt vor, um Daten aus Databricks zu importieren.

  1. AnmeldenAmazon SageMaker SageMaker-Konsoleaus.

  2. Klicken Sie aufStudioaus.

  3. Klicken Sie aufApp startenaus.

  4. Wählen Sie im Dropdown-MenüStudioaus.

  5. ausImportieren von DatenTab Ihres Data Wrangler-Flow, wählen SieFügen Sie Datenquelle hinzuaus.

  6. SelectDatabricks (JDBC)aus.

    
                        Databricks (JDBC)befindet sich in der oberen rechten Bildschirmecke.
  7. Geben Sie die folgenden Felder ein:

    • Name des Datensatznamens— Ein Name, den Sie für den Datensatz in Ihrem Data Wrangler-Flow verwenden möchten.

    • Treibercom.Simba.spark.jdbc.Treiberaus.

    • JDBC-URL— Die URL zur Databricks-Datenbank. Die URL-Formatierung kann zwischen Databricks-Instanzen variieren. Informationen zum Auffinden der URL und zum Angeben der darin enthaltenen Parameter finden Sie unterJDBC-Konfigurations- und Verbindungsparameteraus. Das Folgende ist ein Beispiel dafür, wie eine URL formatiert werden kann: jdbc:spark: //aws-sagemaker-datawrangler.cloud.databricks.com:443/default; transportMode=HTTP; ssl=1; HttpPath=SQL/ProtocolV1/o/3122619508517275/0909-200301-cut318; authmech=3; UIDMech=3;Zeichen; PWD=persönlicher Zugriffstokenaus.

  8. Geben Sie eine SQL SELECT-Anweisung an

  9. (Optional)Probenahme aktivierenverwendet die ersten 50.000 Zeilen Ihres Datensatzes. Dies ist die Standardeinstellung für den Import von Daten. Bei großen Datensätzen kann es lange dauern, bis die Daten importiert werden, wenn Sie sie nicht testen. Deaktivieren Sie das Sampling, um den gesamten Datensatz zu importieren.

  10. Wählen Sie Run (Ausführen) aus. Die folgende Abbildung zeigt eine Abfrage mit aktiviertem Sampling.

    
                        SQL-Abfragebefindet sich unter dem Feld, in dem Sie die JDBC-URL angeben.
  11. (Optional) Für dieVORSCHAUWählen Sie die Ausrüstung zum Öffnen derEinstellungen der Partitionaus. Die folgende Abbildung zeigt eine Abfrage mit den angegebenen optionalen Datenpartitionseinstellungen.

    
                        Der Gang für die zusätzlichen Einstellungen befindet sich ganz rechts vomVORSCHAUTitel.
    1. Geben Sie die Anzahl an Partitionen an. Sie können nach Spalte partitionieren, wenn Sie die Anzahl der Partitionen angeben:

      • Geben Sie die Anzahl an Partitionen ein— Geben Sie einen Wert größer als 2 ein.

      • (Optional)Partition nach Spalte— Geben Sie die folgenden Felder ein. Sie können nur nach einer Spalte partitionieren, wenn Sie einen Wert fürGeben Sie die Anzahl an Partitionen einaus.

        • Spalte auswählen— Die Spalte, die Sie für die Datenpartition verwenden. Der Datentyp der Spalte muss numerisch oder Datum sein.

        • Obergrenze— Aus den Werten in der Spalte, die Sie angegeben haben, dem Wert der Obergrenze, den Sie in der Partition verwenden. Der Wert, den Sie angeben, ändert nicht die Daten, die Sie importieren. Es wirkt sich nur auf die Geschwindigkeit des Imports aus. Um die beste Leistung zu erzielen, geben Sie eine Obergrenze an, die nahe dem Maximum der Spalte liegt.

        • Untergrenze— Aus den Werten in der Spalte, die Sie angegeben haben, dem Wert der Untergrenze, den Sie in der Partition verwenden. Der Wert, den Sie angeben, ändert nicht die Daten, die Sie importieren. Es wirkt sich nur auf die Geschwindigkeit des Imports aus. Um die beste Leistung zu erzielen, geben Sie eine Untergrenze an, die nahe dem Minimum der Spalte liegt.

  12. Wählen Sie Import.

Importieren von Daten aus Snowflake

Sie können Snowflake als Datenquelle in SageMaker Data Wrangler bereitet Daten in Snowflake für maschinelles Lernen vor.

Mit Snowflake als Datenquelle in Data Wrangler können Sie sich schnell mit Snowflake verbinden, ohne eine einzige Codezeile zu schreiben. Darüber hinaus können Sie Ihre Daten in Snowflake mit in Amazon S3 gespeicherten Daten und Daten, die über Amazon Athena und Amazon Redshift abgefragt werden, verbinden, um Daten für maschinelles Lernen vorzubereiten.

Nach der Verbindung können Sie in Snowflake gespeicherte Daten interaktiv abfragen, Daten mit mehr als 300 vorkonfigurierten Datentransformationen transformieren, Daten verstehen und potenzielle Fehler und Extremwerte mit einer Reihe robuster vorkonfigurierter Visualisierungsvorlagen identifizieren, Inkonsistenzen in Ihren Daten schnell erkennen Vorbereitungs-Workflow und diagnostizieren Sie Probleme, bevor Modelle in der Produktion bereitgestellt werden. Schließlich können Sie Ihren Datenvorbereitungs-Workflow zur Verwendung mit anderen nach Amazon S3 exportieren SageMaker Funktionen wie Amazon SageMaker Autopilot SageMaker Feature Store und Amazon SageMaker Pipelines des Modellbaus

Sie können die Ausgabe Ihrer Abfragen mit einemAWS Key Management Service-Schlüssel, den Sie erstellt haben. Mehr über AWS KMS erfahren Sie unter AWS Key Management Service.

POST EDIT. ADDED PROOFREAD. ADDED PP1

Wichtig

Weitere Informationen zur granularen Zugriffskontrolle und zu bewährten Methoden finden Sie unterSicherheitszugriffskontrolleaus.

Dieser Abschnitt richtet sich an Snowflake-Administratoren, die den Zugriff auf Snowflake von innen aus einrichten SageMaker Data Wrangler.

Wichtig

Ihr Administrator ist für die Verwaltung und Überwachung der Zugriffskontrolle in Snowflake verantwortlich. Dies beinhaltet, auf welche Daten ein Benutzer zugreifen kann, welche Speicherintegration ein Benutzer verwenden kann und welche Abfragen ein Benutzer ausführen kann. Data Wrangler fügt keine Zugriffskontrollebene in Bezug auf Snowflake hinzu.

Wichtig

Beachten Sie, dass das Erteilen von Monitorrechten Benutzern ermöglichen kann, Details innerhalb eines Objekts wie Abfragen oder Verwendung innerhalb eines Lagerhauses anzuzeigen.

Konfigurieren Sie Schneeflocke mit Data Wrangler

Um Daten aus Snowflake zu importieren, müssen Snowflake-Administratoren den Zugriff von Data Wrangler mit Amazon S3 konfigurieren.

Diese Funktion ist derzeit in den Opt-in-Regionen nicht verfügbar.

Zum Konfigurieren des Zugriffs führen Sie diese Schritte aus.

  1. Konfigurieren Sie Zugriffsberechtigungen für den S3-Bucket.

    AWSZugriffskontrollanforderungen

    Snowflake benötigt die folgenden Berechtigungen für einen S3-Bucket und ein Verzeichnis, um auf Dateien im Verzeichnis zugreifen zu können.

    • s3:GetObject

    • s3:GetObjectVersion

    • s3:ListBucket

    • s3:ListObjects

    • s3:GetBucketLocation

    Erstellen Sie eine IAM-Richtlinie

    In den folgenden Schritten wird beschrieben, wie Sie Zugriffsberechtigungen für Snowflake in IhremAWSManagement Console, damit Sie einen S3-Bucket zum Laden und Entladen von Daten verwenden können:

    • Anmelden an der AWS Management Console

    • Wählen Sie im Home-Dashboard die OptionIAMaus.

    • Wählen Sie Policies (Richtlinien).

    • Wählen Sie Create Policy (Richtlinie erstellen) aus.

    • Wählen Sie die Registerkarte JSON.

    • Fügen Sie ein Richtliniendokument hinzu, das Snowflake den Zugriff auf den S3-Bucket und das -Verzeichnis ermöglicht.

      Die folgende Richtlinie (im JSON-Format) bietet Snowflake die erforderlichen Berechtigungen zum Laden und Entladen von Daten mit einem einzigen Bucket und einem Verzeichnispfad. Stellen Sie sicher, dass Sie ersetzenbucketundprefixmit Ihrem tatsächlichen Bucket-Namen und Ihrem Verzeichnispfad-Präfix.

      # Example policy for S3 write access # This needs to be updated { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:GetObjectVersion", "s3:DeleteObject", "s3:DeleteObjectVersion" ], "Resource": "arn:aws:s3:::bucket/prefix/*" }, { "Effect": "Allow", "Action": [ "s3:ListBucket" ], "Resource": "arn:aws:s3:::bucket/", "Condition": { "StringLike": { "s3:prefix": ["prefix/*"] } } } ] }
    • Wählen Sie Weiter. Tags.

    • Wählen Sie Weiter. Prüfen.

      Geben Sie den Namen der Richtlinie ein (z. B.snowflake_access) und eine optionale Beschreibung. Wählen Sie Create Policy (Richtlinie erstellen) aus.

  2. Erstellen Sie die IAM-Rolle inAWSaus.

  3. Erstellen Sie eine Cloud-Storage-Integration in Snowflakeaus.

  4. Abrufen desAWSIAM-Benutzer für Ihr Snowflake-Kontoaus.

  5. Erteilen Sie dem IAM-Benutzerberechtigungen für Zugriff auf Bucketaus.

  6. Erteilen Sie der Snowflake-Rollennutzungsberechtigung des Datenwissenschaftlers für die Speicherintegration.

    • Führen Sie in der Snowflake-Konsole ausGRANT USAGE ON INTEGRATION integration_name TO snowflake_role;

      • integration_nameist der Name Ihrer Storage-Integration.

      • snowflake_roleist der Name des StandardverhältnissesSnowflake (Rolle)an den Benutzer des Datenwissenschaftlers gegeben.

Stellen Sie dem Datenwissenschaftler Informationen zur Verfügung

Stellen Sie dem Datenwissenschaftler die Informationen zur Verfügung, die er für den Zugriff auf Snowflake von Amazon benötigt SageMaker Data Wrangler.

  1. Damit Ihr Datenwissenschaftler den Zugriff auf Snowflake von SageMaker Data Wrangler, stellen Sie ihnen eine der folgenden Optionen zur Verfügung:

    • Ein Snowflake-Kontoname, ein Benutzername und ein Passwort.

    • Ein Geheimnis geschaffen mitAWSSecrets Managerund der ARN des Secrets. Gehen Sie wie folgt vor, um das Geheimnis für Snowflake zu erstellen, wenn Sie diese Option wählen.

      Wichtig

      Wenn Ihre Datenwissenschaftler dieSnowflake-Anmeldeinformationen (Benutzername und Passwort)Option zur Verbindung mit Snowflake, beachten Sie, dassSecrets Managerwird verwendet, um die Anmeldeinformationen im Geheimen zu speichern und Secrets im Rahmen eines auf bewährten Methoden gehaltenen Sicherheitsplans zu rotieren Das in Secrets Manager erstellte Geheimnis ist nur mit der Studio-Rolle zugänglich, die beim Einrichten eines Studio-Benutzerprofils konfiguriert wurde. Dazu müssen Sie diese Berechtigung hinzufügen.secretsmanager:PutResourcePolicy, an die Richtlinie, die Ihrer Studio-Rolle zugeordnet ist.

      Wir empfehlen dringend, dass Sie die Rollenrichtlinie so eingrenzen, dass sie verschiedene Rollen für verschiedene Gruppen von Studio-Benutzern verwenden. Sie können zusätzliche ressourcenbasierte Berechtigungen für die Secrets Manager Manager-Geheimnisse hinzufügen. Siehe .Geheime Richtlinie verwaltenFür Bedingungsschlüssel können Sie verwenden.

      • Erstellen Sie ein Secrets Manager Manager-Secretaus.

        • Melden Sie sich bei der Secrets Manager-Konsole an.

        • Wählen Sie Store a new secret (Ein neues Secret speichern).

        • In derWählen Sie den geheimen Typ, wählenAndere Art von Geheimnissenaus.

        • Geben Sie die Daten Ihres benutzerdefinierten Secrets in Form von Schlüssel-Wert-Paaren an. Beim Namen der Schlüssel wird zwischen Groß- und Kleinschreibung unterschieden:username-Schlüssel mussusernamemuss der Passwortschlüssel seinpassword, und der Konto-ID-Schlüssel muss seinaccountidaus. Wenn Sie eines dieser falsch eingeben, löst Data Wrangler einen Fehler aus. Zitate fürusername,password, undaccountidsind nicht erforderlich, wenn Sie einen geheimen Schlüsselwert verwenden. Alternativ können Sie die Option auswählenNur-TextGeben Sie den geheimen Wert in JSON ein, wie im folgenden Beispiel gezeigt:

          { "username": "snowflake username", "password": "snowflake password", "accountid": "snowflake accountid" }
        • Klicken Sie aufWeiter, und stellen Sie auf dem folgenden Bildschirm den Namen Ihres Geheimnisses mitAmazonSageMaker-aus. Fügen Sie zusätzlich ein Tag mit dem Schlüssel hinzu SageMaker (ohne Anführungszeichen) und der Wert:true(ohne Anführungszeichen). Der Rest der Felder ist optional. Sie können ans Seitenende scrollen und wählenWeiteraus. Der Rest der Bildschirme ist optional. Klicken Sie aufWeiter bis das Geheimnis gespeichert wurde.

        • Wählen Sie den geheimen Namen aus und speichern Sie den ARN des Secrets. Wählen Sie Store (Speichern) aus.

        • Wählen Sie das Geheimnis aus, das Sie gerade erstellt haben.

        • Sie sehen Ihren ARN auf dem Bildschirm. Stellen Sie dem Datenwissenschaftler den ARN zur Verfügung, wenn er den ARN verwendet, um sich mit Snowflake zu verbinden.

  2. Geben Sie dem Datenwissenschaftler den Namen der Speicherintegration, die Sie in Schritt 3 erstellt haben: Erstellen Sie eine Cloud-Storage-Integration in Snowflakeaus. Dies ist der Name der neuen Integration und heißtintegration_nameimCREATE INTEGRATIONDer von Ihnen ausgeführte SQL-Befehl (SQL-Befehl), der im folgenden Snippet dargestellt wird:

    CREATE STORAGE INTEGRATION integration_name TYPE = EXTERNAL_STAGE STORAGE_PROVIDER = S3 ENABLED = TRUE STORAGE_AWS_ROLE_ARN = 'iam_role' [ STORAGE_AWS_OBJECT_ACL = 'bucket-owner-full-control' ] STORAGE_ALLOWED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') [ STORAGE_BLOCKED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') ]

Leitfaden für Datenwissenschaftler

In diesem Abschnitt wird beschrieben, wie Sie von SageMaker Data Wrangler aus SageMaker Data Wrangler auf Ihr Snowflake-Data Warehouse zugreifen und wie Sie Data Wrangler-Funktionen verwenden.

Wichtig

Hinweis: Ihr Administrator muss dem im vorherigen Abschnitt eingerichteten Administratorhandbuch folgen, bevor Sie Data Wrangler in Snowflake verwenden können.

Gehen Sie zum Öffnen von Amazon wie nachfolgend beschrieben vor SageMaker Studio und sehen Sie, welche Version Sie ausführen.

Informationen zum Öffnen von Studio und Überprüfen der Version finden Sie in der folgenden Vorgehensweise.

  1. Verwenden Sie die Schritte inVoraussetzungenum über Amazon auf Data Wrangler zuzugreifen SageMaker Studio.

  2. Wählen Sie neben dem Benutzer, dem Sie zum Starten von Studio verwenden möchtenApp startenaus.

  3. Klicken Sie aufStudioaus.

  4. Wählen Sie nach dem Laden von StudioDatei, dannNeu, und dannTerminalaus.

  5. Nachdem Sie Studio gestartet haben, wählen SieDatei, dannNeu, und dannTerminalaus.

  6. Geben Sie ein.cat /opt/conda/share/jupyter/lab/staging/yarn.lock | grep -A 1 "@amzn/sagemaker-ui-data-prep-plugin@"um die Version Ihrer Studio-Instanz zu drucken. Sie benötigen Studio-Version 1.3.0, um Snowflake verwenden zu können.

Gehen Sie wie folgt vor, um zu überprüfen, ob Sie Version 1.3.0 oder höher ausführen.

Gehen Sie wie folgt vor, um die Version von Studio zu überprüfen.

  1. Wenn Sie diese Version nicht haben, aktualisieren Sie Ihre Studio-Version. Schließen Sie dazu Ihr Studio-Fenster und navigieren Sie zuSageMaker Studio-Konsoleaus.

  2. Wählen Sie als Nächstes den Benutzer aus, mit dem Sie auf Studio zugreifen möchten, und wählen Sie dannLöschen der Appaus. Nachdem das Löschen abgeschlossen ist, starten Sie Studio erneut, indem SieÖffnen des Studiosaus.

  3. Führen Sie Schritt 3 erneut aus, um zu überprüfen, ob Ihre Studio-Version 1.3.0 ist.

Gehen Sie wie nachfolgend beschrieben vor, um eine Verbindung mit Snowflake herzustellen.

  1. Erstellen Sie einen neuen Datenfluss aus Data Wrangler

    Sobald Sie von Studio aus auf Data Wrangler zugegriffen haben und Version 1.3.0 haben, wählen Sie die+Unterschreiben Sie auf derNeuer Datenfluss-Karte unterML-Aufgaben und Komponentenaus. Dadurch wird ein neues Verzeichnis in Studio mit einer Flow-Datei erstellt, die Ihren Datenfluss enthält. Die Flow-Datei wird automatisch in Studio geöffnet.

    Alternativ können Sie auch einen neuen Flow erstellen, indem SieDatei, dannNeuund danach wählen-Ablaufaus.

    Wenn Sie eine neue Flow-Datei in Studio erstellen, wird möglicherweise oben auf der Data Wrangler-Schnittstelle eine Meldung angezeigt, die besagt:

    Verbinden mit der Engine

    Verbindung zur Engine herstellen...

  2. Connect Snowflake.

    Es gibt zwei Möglichkeiten, sich von Data Wrangler aus mit Snowflake zu verbinden. Sie müssen nur eine der beiden Möglichkeiten wählen.

    1. Geben Sie in Data Wrangler Ihre Snowflake-Anmeldeinformationen (Kontoname, Benutzername und Passwort) an.

    2. Geben Sie einen Amazon-Ressourcennamen (ARN) eines Secrets an.

    Wichtig

    Wenn Sie Ihre Snowflake-Anmeldeinformationen oder Ihren ARN nicht haben, wenden Sie sich an Ihren Administrator. Ihr Administrator kann Ihnen mitteilen, welche der vorhergehenden Methoden Sie verwenden müssen, um eine Verbindung mit Snowflake herzustellen.

    Starten Sie auf derImportDatenbildschirm und zuerst auswählenFügen Sie Datenquelle hinzuWählen Sie im Dropdown-Menü die Option aus.Snowflakeaus. Der folgende Screenshot veranschaulicht, wo Sie denSnowflakeOption.

Wählen Sie eine Authentifizierungsmethode aus. Für diesen Schritt können Sie, wie bereits erwähnt, Ihre Snowflake-Anmeldeinformationen oder Ihren ARN-Namen verwenden. Einer von beiden istzur Verfügung gestellt von Ihrem Administrator.

Als Nächstes erklären wir beide Authentifizierungsmethoden und stellen Screenshots für jeden bereit.

  1. Option Snowflake Anmeldeinformationenaus.

    Wählen Sie die OptionBasic(Benutzername und Passwort) -Option ausAuthentifizierungsmethodeDropdown-Liste Geben Sie dann Ihre Anmeldeinformationen in folgende Felder ein:

    • Speicher-Integration: Geben Sie den Namen der Speicherintegration an. Ihr Administrator gibt diesen Namen an.

    • Snowflake-Kontoname: Der vollständige Name Ihres Snowflake-Kontos.

    • Benutzername: Benutzername des Snowflake-Kontos.

    • Passwort: Passwort für das Snowflake-Konto

    • Verbindungsname: Wählen Sie einen Verbindungsnamen für Ihre Wahl aus.

    • (Optional)KMS-Schlüssel-ID: Wählen Sie das SymbolAWS KMS keyum die Ausgabe der Snowflake-Abfrage zu verschlüsseln. Mehr über AWS Key Management Service erfahren Sie unter https://docs.aws.amazon.com/kms/latest/developerguide/overview.html. Wenn Sie kein angebenAWS KMSSchlüssel verwendet Data Wrangler die standardmäßige SSE-KMS-Verschlüsselungsmethode.

    Wählen Sie Connect (Verbinden) aus.

    Der folgende Screenshot zeigt, wie Sie diese Felder ausfüllen.

  2. ARN-Option

    Wählen Sie die ARN-Option aus derAuthentifizierungsmethodeDropdown-Liste Geben Sie dann Ihren ARN-Namen unterARN Secrets Managerund IhreSpeicher-Integration, das von Ihrem Administrator bereitgestellt wird. Wenn Sie einen KMS-Schlüssel erstellt haben, können Sie seine ID angebenKMS-Schlüssel-IDaus. Mehr über AWS Key Management Service erfahren Sie unter https://docs.aws.amazon.com/kms/latest/developerguide/overview.html. Erstellen einesVerbindungsnameund wählen SieVerbinden, vgl. das folgende Bildschirmfoto.

  3. Der Workflow besteht an dieser Stelle darin, Ihr Snowflake-Konto mit Data Wrangler zu verbinden, dann einige Abfragen zu Ihren Daten auszuführen und dann schließlich Data Wrangler zur Durchführung von Datentransformationen zu verwenden.

    Die folgenden Schritte erklären den Import- und Abfrageschritt aus Data Wrangler.

    Nachdem Sie Ihre Snowflake-Verbindung erstellt haben, gelangen Sie zurImportieren von Daten aus Snowflake-Bildschirm, wie im folgenden Screenshot gezeigt.

    Wählen Sie von hier aus Ihr Lager aus. Sie können optional auch Ihre Datenbank und Ihr Schema auswählen, in diesem Fall sollte die schriftliche Abfrage sie angeben. WennDatenbankundSchemasind in der Dropdown-Liste enthalten, die geschriebene Abfrage muss die Datenbank- und Schemanamen nicht angeben.

    Ihre Schemas und Tabellen aus Ihrem Snowflake-Konto sind im linken Bereich aufgeführt. Sie können diese Entitäten auswählen und entwirren. Wenn Sie eine bestimmte Tabelle auswählen, wählen Sie das Augensymbol rechts neben jedem Tabellennamen aus, um eine Vorschau der Tabelle anzuzeigen.

    Wichtig

    Wenn Sie einen Datensatz mit Spalten vom Typ importierenTIMESTAMP_TZoderTIMESTAMP_LTZ, Hinzufügen von::stringzu den Spaltennamen Ihrer Abfrage. Weitere Informationen finden Sie unterVorgehensweise: Entladen Sie TIMESTAMP_TZ- und TIMESTAMP_LTZ Daten in eine Parkett-Dateiaus.

    Der folgende Screenshot zeigt das Panel mit Ihren Data Warehouses, Datenbanken und Schemas sowie das Augensymbol, mit dem Sie eine Vorschau Ihrer Tabelle anzeigen können. Sobald Sie diePreview Table-Symbol wird die Schemavorschau dieser Tabelle generiert. Sie müssen ein Lager auswählen, bevor Sie eine Tabelle in der Vorschau anzeigen können.

    Nachdem Sie ein Data Warehouse, eine Datenbank und ein Schema ausgewählt haben, können Sie jetzt Abfragen schreiben und ausführen. Die Ausgabe Ihrer Abfrage wird unterAbfrageergebnisse, vgl. das folgende Bildschirmfoto.

    Sobald Sie sich für die Ausgabe Ihrer Abfrage entschieden haben, können Sie die Ausgabe Ihrer Abfrage in einen Data Wrangler-Flow importieren, um Datentransformationen durchzuführen.

    Um dies zu tun, wählen SieImport, then geben Sie einen Namen an und wählen SieGo, vgl. das folgende Bildschirmfoto.

    Von hier aus wechselt der Übergang zumDatenfluss-Bildschirm, um Ihre Datentransformation vorzubereiten, wie im folgenden Screenshot gezeigt.

Private Konnektivität zwischen Data Wrangler und Snowflake viaAWS PrivateLink

In diesem Abschnitt wird erläutert, wie Sie verwendenAWS PrivateLinkum eine private Verbindung zwischen Data Wrangler und Snowflake herzustellen. Die Schritte werden in den folgenden Abschnitten beschrieben.

Erstellen einer VPC

Wenn Sie keine VPC eingerichtet haben, folgen Sie derErstellen einer neuen VPCAnweisungen zum Erstellen einer.

Sobald Sie eine ausgewählte VPC haben, die Sie zum Herstellen einer privaten Verbindung verwenden möchten, geben Sie Ihrem Snowflake-Administrator die folgenden Anmeldeinformationen zur AktivierungAWS PrivateLink:

  • VPC-ID.

  • AWSKonto-ID.

  • Ihre entsprechende Konto-URL, die Sie für den Zugriff auf Snowflake verwenden.

Wichtig

Gemäß der Dokumentation von Snowflake kann die Aktivierung für Ihr Snowflake-Konto bis zu zwei Werktage dauern.

NachAWS PrivateLinkist aktiviert, rufen Sie dieAWS PrivateLinkKonfiguration für Ihre Region, indem Sie den folgenden Befehl in einem Snowflake-Arbeitsblatt ausführen. Melden Sie sich bei Ihrer Snowflakes-Konsole an, geben Sie unter Arbeitsblättern Folgendes ein:select SYSTEM$GET_PRIVATELINK_CONFIG();

  1. Rufen Sie die Werte für Folgendes ab:privatelink-account-name,privatelink_ocsp-url,privatelink-account-url, undprivatelink_ocsp-urlaus dem resultierenden JSON-Objekt. Beispiele für jeden Wert werden im folgenden Snippet dargestellt. Speichern Sie diese Werte zur späteren Verwendung.

    privatelink-account-name: xxxxxxxx.region.privatelink privatelink-vpce-id: com.amazonaws.vpce.region.vpce-svc-xxxxxxxxxxxxxxxxx privatelink-account-url: xxxxxxxx.region.privatelink.snowflakecomputing.com privatelink_ocsp-url: ocsp.xxxxxxxx.region.privatelink.snowflakecomputing.com
  2. Wechseln Sie zu IhremAWSKonsolen und navigieren Sie zum VPC-Menü.

  3. Wählen Sie im linken Seitenbereich die-EndpunkteLink zum Navigieren zum-VPC-Endpunkte-Setuppunkt

    Dort angekommen, wählen SieErstellen eines Endpunktsaus.

  4. Wählen Sie das Optionsfeld fürService nach Namen suchen, vgl. das folgende Bildschirmfoto.

  5. In derService-Name, fügen Sie den Wert für einprivatelink-vpce-iddie Sie im vorherigen Schritt abgerufen haben und wählenÜberprüfenaus.

    Wenn die Verbindung erfolgreich ist, steht eine grüne WarnungServicenname gefundenAuf Ihrem Bildschirm wird angezeigt undVPCundSubnetzDie Optionen werden automatisch erweitert, wie im folgenden Screenshot gezeigt. Abhängig von Ihrer Zielregion zeigt Ihr resultierender Bildschirm möglicherweise einen anderenAWSName der Region.

  6. Wählen Sie die gleiche VPC-ID aus, die Sie an Snowflake gesendet habenVPCDropdown-Liste.

  7. Wenn Sie noch kein Subnetz erstellt haben, führen Sie die folgenden Anweisungen zum Erstellen eines Subnetzes aus.

  8. SelectSubnetzeausVPCDropdown-Liste. Wählen Sie dannErstellen eines Subnetzesund folgen Sie den Anweisungen, um eine Teilmenge in Ihrer VPC zu erstellen. Stellen Sie sicher, dass Sie die VPC-ID auswählen, die Sie Snowflake gesendet haben.

  9. UNDERSicherheitsgruppenkonfigurationSelectErstellen einer neuen Sicherheitsgruppeum den Standardwert zu öffnenSicherheitsgruppe-Bildschirm in einer neuen Registerkarte. Wählen Sie auf dieser neuen Registerkarte tErstellen von Sicherheitsgruppeaus.

  10. Geben Sie einer neuen Sicherheitsgruppe einen Namen (z.datawrangler-doc-snowflake-privatelink-connection) und eine Beschreibung. Stellen Sie sicher, dass Sie die VPC-ID auswählen, die Sie in den vorherigen Schritten verwendet haben.

  11. Fügen Sie zwei Regeln hinzu, um Datenverkehr von Ihrer VPC zu diesem VPC-Endpunkt zuzulassen.

    Navigieren Sie zu Ihrer VPC unterIhre VPCsRufen Sie in einer separaten Registerkarte Ihren CIDR-Block für Ihre VPC ab. Dann wähleRegel hinzufügenimRegeln für eingehenden DatenverkehrAbschnitts erstellt. SelectHTTPSÜbernehmen Sie für den TypSourcealsBenutzerdefiniertin das Formular und fügen Sie den Wert ein, der aus dem vorhergehendendescribe-vpcscall (wie10.0.0.0/16) enthalten.

  12. Wählen Sie Sicherheitsgruppen erstellen aus. Abrufen desSicherheitsgruppen-IDaus der neu geschaffenen Sicherheitsgruppe (wiesg-xxxxxxxxxxxxxxxxx) enthalten.

  13. In derVPC-EndpunktEntfernen Sie die Standardsicherheitsgruppe. Fügen Sie die Sicherheitsgruppen-ID in das Suchfeld ein und aktivieren Sie das Kontrollkästchen.

  14. SelectErstellen eines Endpunktsaus.

  15. Wenn die Endpunkterstellung erfolgreich ist, wird eine Seite mit einem Link zu Ihrer VPC-Endpunktkonfiguration angezeigt, der durch die VPC-ID angegeben ist. Wählen Sie den Link aus, um die Konfiguration vollständig anzuzeigen.

    Rufen Sie den obersten Datensatz in der Liste der DNS-Namen ab. Dies kann von anderen DNS-Namen unterschieden werden, da es nur den Namen der Region enthält (z.us-west-2) und keine Notation der Availability Zone (wieus-west-2a) enthalten. Speichern Sie diese Informationen zur späteren Verwendung.

In diesem Abschnitt wird erläutert, wie Sie DNS für Snowflake-Endpunkte in Ihrer VPC konfigurieren. Dies ermöglicht es Ihrer VPC, Anfragen an den Snowflake zu lösenAWS PrivateLink-Endpunkt

  1. Navigieren Sie zurMenü „Route 53“In DeinemAWSconsole.

  2. Wählen Sie die OptionGehostete ZonenOption (erweitern Sie ggf. das linke Menü, um diese Option zu finden).

  3. Wählen Sie Create Hosted Zone.

    1. In derDomänenname, referenzieren Sie den Wert, der für gespeichert wurdeprivatelink-account-urlIn den vorangegangenen Schritten. In diesem Feld wird Ihre Snowflake-Konto-ID aus dem DNS-Namen entfernt und verwendet nur den Wert, der mit der Regions-ID beginnt. EINRessourcendatensatzwird auch später für die Subdomäne erstellt, wie z. B.region.privatelink.snowflakecomputing.comaus.

    2. Wählen Sie das Optionsfeld fürPrivate gehostete ZoneimTypAbschnitts erstellt. Ihr Regionalcode ist möglicherweise nichtus-west-2aus. Verweisen Sie auf den DNS-Namen, der Ihnen von Snowflake zurückgegeben wurde.

    3. In derVPCs zur Verknüpfung mit der gehosteten ZoneWählen Sie die Region aus, in der sich Ihre VPC befindet, und die VPC-ID, die in den vorherigen Schritten verwendet wurde.

    4. Wählen Sie Erstellte gehostete Zone.

  4. Erstellen Sie als Nächstes zwei Datensätze, einen fürprivatelink-account-urlund eins fürprivatelink_ocsp-urlaus.

    • In derGehostete ZoneMenü, wählenErstellen eines Datensatzesaus.

      1. UNDERDatensatzname, gib nur deine Snowflake-Konto-ID ein (die ersten 8 Zeichen inprivatelink-account-url) enthalten.

      2. UNDERDatensatztypSelectCNAMEaus.

      3. UNDERValue, geben Sie den DNS-Namen für den regionalen VPC-Endpunkt ein, den Sie im letzten Schritt desEinrichten der SchneeflockeAWS PrivateLinkIntegrationAbschnitts erstellt.

      4. Wählen Sie Create records (Datensätze erstellen).

      5. Wiederholen Sie den Vorgang für den OCSP-Datensatz, den wir notiert habenprivatelink-ocsp-url, beginnend mitocspdurch die 8-stellige Snowflake-ID für den Datensatznamen (wieocsp.xxxxxxxx) enthalten.

In diesem Abschnitt wird erläutert, wie Sie eingehende Endpunkte für Route 53 Resolver für Ihre VPC konfigurieren.

  1. Navigieren Sie zurMenü „Route 53“In DeinemAWSconsole.

    • Im linken Panel imSicherheitWählen Sie denSicherheitsgruppenOption.

  2. Wählen Sie Sicherheitsgruppen erstellen aus.

    • Geben Sie Ihrer Sicherheitsgruppe einen Namen (z.datawranger-doc-route53-resolver-sg) und Beschreibung.

    • Wählen Sie die in den vorherigen Schritten verwendete VPC-ID aus.

    • Erstellen Sie Regeln, die DNS über UDP und TCP aus dem VPC CIDR-Block zulassen.

    • Wählen Sie Sicherheitsgruppen erstellen aus. Beachten Sie dieSicherheitsgruppen-IDda fügt eine Regel hinzu, um Datenverkehr zur VPC-Endpunkt-Sicherheitsgruppe zuzulassen.

  3. Navigieren Sie zurMenü „Route 53“In DeinemAWSconsole.

    • In derResolverWählen Sie denEingehender EndpunktOption.

  4. Klicken Sie aufErstellen von eingehenden Endpunktenaus.

    • Geben Sie einen Namen für den Endpunkt an.

    • ausVPC in der RegionWählen Sie die VPC-ID aus, die Sie in allen vorherigen Schritten verwendet haben.

    • In derSicherheitsgruppe für diesen EndpunktWählen Sie die Sicherheitsgruppen-ID aus Schritt 2 in diesem Abschnitt aus.

    • In derIP-Adresse, wählen Sie eine Availability Zones aus, wählen Sie ein Subnetz aus und lassen Sie die Radioauswahl fürVerwenden Sie eine IP-Adresse, die automatisch ausgewählt wirdFür jede IP-Adresse ausgewählt.

    • Wählen Sie Submit (Absenden) aus.

  5. Wählen Sie die OptionEingehender Endpunktnachdem es erstellt wurde.

  6. Notieren Sie sich nach dem Erstellen des eingehenden Endpunkts die beiden IP-Adressen für die Resolver.

SageMaker -VPC-Endpunkte

In diesem Abschnitt wird erläutert, wie Sie VPC-Endpunkte für Folgendes erstellen: Amazon SageMaker Studio, SageMaker Notebooks: SageMaker API, SageMaker Runtime und Amazon SageMaker Laufzeit des Feature Stores

Erstellen Sie eine Sicherheitsgruppe, die auf alle Endpunkte angewendet wird.

  1. Navigieren Sie zurEC2-MenüimAWSKonsole.

  2. In derNetzwerk & SicherheitWählen Sie denSicherheitsgruppenOption.

  3. Wählen Sie Create security group (Sicherheitsgruppe erstellen) aus.

  4. Geben Sie einen Namen und eine Beschreibung für die Sicherheitsgruppe an (z.datawrangler-doc-sagemaker-vpce-sg) enthalten. Später wird eine Regel hinzugefügt, um Datenverkehr über HTTPS zuzulassen SageMaker zu dieser Gruppe.

Erstellen der Endpunkte

  1. Navigieren Sie zurVPC-MenüimAWSconsole.

  2. Wählen Sie die Option-EndpunkteOption.

  3. Klicken Sie auf Create Endpoint (Endpunkt erstellen).

  4. Suchen Sie nach dem Service, indem Sie seinen Namen imSuchefield.

  5. ausVPCDropdown-Liste wählen Sie die VPC aus, in der Ihr SnowflakeAWS PrivateLinkeine Verbindung besteht.

  6. In derSubnetzewählen Sie die Subnetze aus, die Zugriff auf die Snowflake haben PrivateLink -Verbindung

  7. Verlassen derAktivieren des -DNS-NamensAktivieren des Kontrollkästchens.

  8. In derSicherheitsgruppenWählen Sie die Sicherheitsgruppe aus, die Sie im vorherigen Abschnitt erstellt haben.

  9. Klicken Sie auf Create Endpoint (Endpunkt erstellen).

Konfigurieren Sie Studio und Data Wrangler

In diesem Abschnitt wird erläutert, wie Sie Studio und Data Wrangler konfigurieren.

  1. Konfigurieren Sie die Sicherheitsgruppe.

    1. Navigieren Sie zum Amazon EC2 EC2-Menü imAWSKonsole.

    2. Wählen Sie die OptionSicherheitsgruppenOption imNetzwerk & SicherheitAbschnitts erstellt.

    3. Wählen Sie Sicherheitsgruppen erstellen aus.

    4. Geben Sie einen Namen und eine Beschreibung für Ihre Sicherheitsgruppe an (z.datawrangler-doc-sagemaker-studio) enthalten.

    5. Erstellen Sie die folgenden Regeln für eingehenden Datenverkehr.

      • Die HTTPS-Verbindung zu der Sicherheitsgruppe, die Sie für den Snowflake bereitgestellt haben PrivateLink -Verbindung, die Sie imEinrichten der Schneeflocke PrivateLink IntegrationSchritt.

      • Die HTTP-Verbindung zu der Sicherheitsgruppe, die Sie für den Snowflake bereitgestellt haben PrivateLink -Verbindung, die Sie imEinrichten der Schneeflocke PrivateLink Integration-Schrittaus.

      • Die UDP und TCP für DNS (Port 53) zu Route 53 Resolver Inbound Endpoint Sicherheitsgruppe, die Sie in Schritt 2 vonKonfigurieren Sie den eingehenden Endpoint von Route 53 Resolver für Ihre VPCaus.

    6. Klicken Sie aufErstellen von Sicherheitsgruppe-Taste unten rechts.

  2. Konfigurieren Sie Studio.

    • Navigieren Sie zur SageMaker Menü (Menü) im.AWSconsole.

    • Wählen Sie in der linken Konsole dieSageMaker StudioOption.

    • Wenn Sie keine Domänen konfiguriert haben, wirdErste Schritte-Menü ist vorhanden.

    • Wählen Sie die OptionStandard-SetupOption von derErste SchritteMenü.

    • UNDERAuthentifizierungsmethodeSelectAWSIdentity and Access Management (IAM)aus.

    • ausBerechtigungenkönnen Sie je nach Anwendungsfall eine neue Rolle erstellen oder eine bereits vorhandene Rolle verwenden.

      • Wenn SieCreate a new role (Neue Rolle erstellen)erhalten Sie die Möglichkeit, einen S3-Bucket-Namen anzugeben, und eine Richtlinie wird für Sie generiert.

      • Wenn Sie bereits eine Rolle mit Berechtigungen für die S3-Buckets erstellt haben, auf die Sie Zugriff benötigen, wählen Sie die Rolle aus der Dropdown-Liste aus. Diese Rolle sollte dieAmazonSageMakerFullAccessEine mit ihr verknüpfte Richtlinie.

    • Wählen Sie die OptionNetzwerk und SpeicherDropdown-Liste zur Konfiguration der VPC, Sicherheit und Subnetze, die SageMaker verwendet.

      • UNDERVPC, wählen Sie die VPC aus, in der Ihre Snowflake PrivateLink eine Verbindung besteht.

      • UNDERSubnetz (s), wählen Sie die Subnetze aus, die Zugriff auf die Snowflake PrivateLink-Verbindung haben.

      • UNDERNetzwerkzugriff für StudioSelectNur VPCaus.

      • UNDERSicherheitsgruppe [n]Wählen Sie die Sicherheitsgruppe aus, die Sie in Schritt 1 erstellt haben.

    • Wählen Sie Submit (Absenden) aus.

  3. Bearbeiten Sie die SageMaker -Sicherheitsgruppe.

    • Erstellen Sie die folgenden eingehenden Regeln:

      • Port 2049 an die eingehenden und ausgehenden NFS-Sicherheitsgruppen, die automatisch von SageMaker in Schritt 2 (die Namen der Sicherheitsgruppe enthalten die Studio-Domänen-ID).

      • Zugriff auf alle TCP-Ports auf sich selbst (nur für SageMaker für VPC erforderlich).

  4. Bearbeiten Sie die VPC Endpoint Security Groups:

    • Navigieren Sie zum Amazon EC2 EC2-Menü imAWSconsole.

    • Suchen Sie die Sicherheitsgruppe, die Sie in einem vorherigen Schritt erstellt haben.

    • Fügen Sie eine eingehende Regel hinzu, die HTTPS-Datenverkehr aus der in Schritt 1 erstellten Sicherheitsgruppe zulässt.

  5. Erstellen Sie ein Benutzerprofil.

    • ausSystemsteuerung von SageMaker Studio, wählenBenutzer hinzufügenaus.

    • Geben Sie einen Benutzernamen an.

    • Für den-AusführungsrolleWählen Sie aus, ob Sie eine neue Rolle erstellen oder eine bereits vorhandene Rolle verwenden möchten.

      • Wenn SieCreate a new role (Neue Rolle erstellen)erhalten Sie die Möglichkeit, einen Amazon S3 S3-Bucket-Namen anzugeben, und eine Richtlinie wird für Sie generiert.

      • Wenn Sie bereits eine Rolle mit Berechtigungen für die Amazon S3 S3-Buckets erstellt haben, auf die Sie Zugriff benötigen, wählen Sie die Rolle aus der Dropdown-Liste aus. Diese Rolle sollte dieAmazonSageMakerFullAccessEine mit ihr verknüpfte Richtlinie.

    • Wählen Sie Submit (Absenden) aus.

  6. Erstellen Sie einen Datenfluss (folgen Sie dem Datenwissenschaftler-Leitfaden, der in einem vorherigen Abschnitt beschrieben wurde).

    • Wenn Sie eine Snowflake-Verbindung hinzufügen, geben Sie den Wert vonprivatelink-account-name(ausEinrichten von Snowflake PrivateLink IntegrationSchritt) in dieSnowflake-Kontoname (alphanumerisch)statt des einfachen Snowflake-Kontonamens. Alles andere bleibt unverändert.

Importierter Datenspeicher

Wichtig

Es wird dringend empfohlen, die bewährten Methoden zum Schutz Ihres Amazon S3 S3-Buckets zu befolgen, indem SieBewährte Methoden für die Gewährleistung der Sicherheitaus.

Wenn Sie Daten von Amazon Athena oder Amazon Redshift abfragen, wird der abgefragte Datensatz automatisch in Amazon S3 gespeichert. Daten werden in der Standardeinstellung gespeichert SageMaker Einen S3-Bucket fürAWSEine Region, in der Sie Studio verwenden.

Die Standard-S3-Buckets haben die folgende Namenskonvention: sagemaker-region-account numberaus. Wenn Ihre -Kontonummer 111122223333 ist und Sie Studio in verwendenus-east-1werden Ihre importierten Datensätze insagemaker-us-east-1-1111223333.

Data Wrangler-Flüsse hängen von diesem Speicherort des Amazon S3-Datensatzes ab, daher sollten Sie diesen Datensatz in Amazon S3 nicht ändern, während Sie einen abhängigen Flow verwenden. Wenn Sie diesen S3-Speicherort ändern und Ihren Datenfluss weiterhin verwenden möchten, müssen Sie alle Objekte intrained_parametersin Ihrer Flow-Datei. Laden Sie dazu die Flow-Datei von Studio und für jede Instanz vontrained_parameters, lösche alle Einträge. Wenn Sie fertig sind,trained_parameterssollte ein leeres JSON-Objekt sein:

"trained_parameters": {}

Wenn Sie Ihren Datenfluss exportieren und zur Verarbeitung Ihrer Daten verwenden, bezieht sich die Flow-Datei, die Sie exportieren, auf diesen Datensatz in Amazon S3. Verwenden Sie die folgenden Abschnitte, um weitere Informationen zu erhalten.

Amazon Redshift Redshift-Importspeicher

Data Wrangler speichert die Datensätze, die sich aus Ihrer Abfrage ergeben, in einer Parkett-Datei in Ihrer Standardeinstellung SageMaker S3-Bucket

Diese Datei wird unter dem folgenden Präfix (Verzeichnis) gespeichert: redshift/uuid/data/, wouuidist ein eindeutiger Bezeichner, der für jede Abfrage erstellt wird.

Zum Beispiel, wenn Ihr Standard-Bucket lautetsagemaker-us-east-1-111122223333befindet sich ein einzelner Datensatz, der von Amazon Redshift abgefragt wird, in s3: //sagemaker-us-east-1-111122223333/redshift/uuid/data/.

Amazon-Athena-Importspeicher

Wenn Sie eine Athena-Datenbank abfragen und einen Datensatz importieren, speichert Data Wrangler den Datensatz sowie eine Teilmenge dieses Datensatzes oderVorversionsdateien, in Amazon S3.

Der Datensatz, den Sie importieren, indem SieImportieren des Datasetswird im Parquet-Format in Amazon S3 gespeichert.

Vorschaudateien werden im CSV-Format geschrieben, wenn SieFühren Sie Folgendes aus:auf dem Athena-Importbildschirm und enthalten bis zu 100 Zeilen aus Ihrem abgefragten Datensatz.

Der von Ihnen abgesuchte Datensatz befindet sich unter dem Präfix (Verzeichnis): athena/uuid/data/, wouuidist ein eindeutiger Bezeichner, der für jede Abfrage erstellt wird.

Zum Beispiel, wenn Ihr Standard-Bucket lautetsagemaker-us-east-1-111122223333befindet sich ein einziger Datensatz, der von Athena abgefragt wird, ins3://sagemaker-us-east-1-111122223333/athena/uuid/data/beispiel_dataset.parkettaus.

Die Teilmenge des Datensatzes, der zur Vorschau von Datenrahmen in Data Wrangler gespeichert wird, wird unter dem Präfix athena/ gespeichert.