Import - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Import

Sie können Amazon SageMaker Data Wrangler verwenden, um Daten aus den folgenden Datenquellen zu importieren: Amazon Simple Storage Service (Amazon S3), Amazon Athena, Amazon Redshift und Snowflake. Der Datensatz, den Sie importieren, kann bis zu 1000 Spalten enthalten.

Bei manchen Datenquellen können Sie mehrere Datenverbindungen hinzufügen:

  • Sie können eine Verbindung zu mehreren Amazon-Redshift-Clustern herstellen. Jeder Cluster wird zu einer Datenquelle.

  • Sie können jede Athena-Datenbank in Ihrem Konto abfragen, um Daten aus dieser Datenbank zu importieren.

Wenn Sie einen Datensatz aus einer Datenquelle importieren, wird er in Ihrem Datenablauf angezeigt. Data Wrangler leitet automatisch den Datentyp jeder Spalte in Ihrem Datensatz ab. Um diese Typen zu ändern, wählen Sie den Schritt Datentypen aus und wählen Sie Datentypen bearbeiten aus.

Wenn Sie Daten aus Athena oder Amazon Redshift importieren, werden die importierten Daten automatisch im SageMaker Standard-S3-Bucket für die AWS Region gespeichert, in der Sie Studio Classic verwenden. Darüber hinaus speichert Athena Daten, die Sie in Data Wrangler in der Vorschau betrachten, in diesem Bucket. Weitere Informationen hierzu finden Sie unter Speicher für importierte Daten.

Wichtig

Der standardmäßige Amazon S3 S3-Bucket verfügt möglicherweise nicht über die am wenigsten zulässigen Sicherheitseinstellungen wie Bucket-Richtlinie und serverseitige Verschlüsselung (). SSE Wir empfehlen dringend, eine Bucket-Richtlinie hinzuzufügen, um den Zugriff auf in Data Wrangler importierte Datensätze einzuschränken.

Wichtig

Wenn Sie die verwaltete Richtlinie für verwenden, empfehlen wir außerdem dringend SageMaker, sie auf die restriktivste Richtlinie zu beschränken, mit der Sie Ihren Anwendungsfall ausführen können. Weitere Informationen finden Sie unter Erteilen Sie einer IAM Rolle die Berechtigung zur Verwendung von Data Wrangler.

Für alle Datenquellen außer Amazon Simple Storage Service (Amazon S3) müssen Sie eine SQL Abfrage angeben, um Ihre Daten zu importieren. Für jede Abfrage müssen Sie Folgendes angeben:

  • Datenkatalog

  • Datenbank

  • Tabelle

Sie können den Namen der Datenbank oder des Datenkatalogs entweder in den Auswahlmenüs oder in der Abfrage angeben. Nachfolgend finden Sie Beispiele für Abfragen:

  • select * from example-data-catalog-name.example-database-name.example-table-name- Die Abfrage verwendet zur Ausführung nichts, was in den Auswahlmenüs der Benutzeroberfläche (UI) angegeben ist. Sie fragt example-table-name innerhalb von example-database-name innerhalb von example-data-catalog-name ab.

  • select * from example-database-name.example-table-name – Die Abfrage verwendet für die Ausführung den Datenkatalog, den Sie im Auswahlmenü Datenkatalog angegeben haben. Sie fragt example-table-name innerhalb von example-database-name innerhalb des Datenkatalogs ab, den Sie angegeben haben.

  • select * from example-table-name – Für die Abfrage müssen Sie Felder für die Auswahlmenüs Datenkatalog und Datenbankname auswählen. Sie fragt example-table-name innerhalb des Datenkatalogs innerhalb der Datenbank und des Datenkatalogs ab, die Sie angegeben haben.

Die Verknüpfung zwischen Data Wrangler und der Datenquelle ist eine Verbindung. Sie verwenden die Verbindung, um Daten aus Ihrer Datenquelle zu importieren.

Es gibt die folgenden Verbindungstypen:

  • Direkt

  • Katalogisiert

Data Wrangler hat in einer direkten Verbindung immer Zugriff auf die aktuellsten Daten. Wenn die Daten in der Datenquelle aktualisiert wurden, können Sie die Verbindung verwenden, um die Daten zu importieren. Wenn z. B. jemand eine Datei zu einem Ihrer Amazon-S3-Buckets hinzufügt, können Sie die Datei importieren.

Eine katalogisierte Verbindung ist das Ergebnis einer Datenübertragung. Die Daten in der katalogisierten Verbindung enthalten nicht unbedingt die aktuellsten Daten. Sie könnten z. B. eine Datenübertragung zwischen Salesforce und Amazon S3 einrichten. Wenn die Salesforce-Daten aktualisiert werden, müssen Sie die Daten erneut übertragen. Sie können den Prozess der Datenübertragung automatisieren. Weitere Informationen zur Datenübertragung finden Sie unter Daten von SaaS-Plattformen (Software-as-a-Service) importieren.

Daten aus Amazon S3 importieren

Mit Hilfe von Amazon Simple Storage Service (Amazon S3) können Sie beliebige Datenmengen speichern und abrufen, jederzeit und von überall im Internet aus. Sie können diese Aufgaben mit der AWS Management Console, einer einfachen und intuitiven Weboberfläche, und Amazon S3 erledigenAPI. Wenn Sie Ihren Datensatz lokal gespeichert haben, empfehlen wir Ihnen, ihn zu einem S3-Bucket hinzuzufügen, um ihn in Data Wrangler zu importieren. Wie das geht, erfahren Sie unter Ein Objekt in einen Bucket hochladen im Benutzerhandbuch zum Amazon Simple Storage Service.

Data Wrangler verwendet S3 Select, damit Sie eine Vorschau Ihrer Amazon S3-Dateien in Data Wrangler erhalten können. Für jede Dateivorschau werden Ihnen Standardgebühren berechnet. Weitere Informationen zu den Preisen finden Sie auf der Registerkarte Anfragen und Datenabrufe auf Amazon S3-Preise.

Wichtig

Wenn Sie planen, einen Datenfluss zu exportieren und einen Data Wrangler-Job zu starten, Daten in einen SageMaker feature store aufzunehmen oder eine SageMaker Pipeline zu erstellen, beachten Sie, dass diese Integrationen erfordern, dass sich die Amazon S3 S3-Eingabedaten in derselben Region befinden. AWS

Wichtig

Wenn Sie eine CSV Datei importieren, stellen Sie sicher, dass sie die folgenden Anforderungen erfüllt:

  • Kein Datensatz in Ihrem Datensatz darf länger als eine Zeile sein.

  • Ein Backslash, \, ist das einzige gültige Escape-Zeichen.

  • Ihr Datensatz muss eines der folgenden Trennzeichen verwenden:

    • Komma – ,

    • Doppelpunkt – :

    • Semikolon – ;

    • Pipe – |

    • Tab – [TAB]

Um Speicherplatz zu sparen, können Sie komprimierte CSV Dateien importieren.

Data Wrangler bietet Ihnen die Möglichkeit, entweder den gesamten Datensatz zu importieren oder eine Stichprobe daraus. Für Amazon S3 bietet es die folgenden Optionen für die Probenahme:

  • Keine – Importiert den gesamten Datensatz.

  • Erstes K – Stichprobe der ersten K Zeilen des Datensatzes, wobei K eine von Ihnen angegebene Ganzzahl ist.

  • Randomisiert – Nimmt eine zufällige Stichprobe mit einer von Ihnen angegebenen Größe.

  • Stratifiziert – Entnimmt eine stratifizierte zufällige Stichprobe. Eine stratifizierte Stichprobe behält das Verhältnis der Werte in einer Spalte bei.

Sobald Sie Ihre Daten importiert haben, können Sie auch den Probenahme-Transformator verwenden, um eine oder mehrere Stichproben aus Ihrem gesamten Datensatz zu nehmen. Weitere Informationen über den Probenahme-Transformator finden Sie unter Sampling.

Verwenden Sie eine der folgenden Ressourcen-IDs, um Ihre Daten zu importieren:

  • Ein Amazon S3URI, das einen Amazon S3 S3-Bucket oder einen Amazon S3 S3-Zugriffspunkt verwendet

  • Ein Alias für einen Amazon S3 Access Point

  • Ein Amazon-Ressourcenname (ARN), der einen Amazon S3-Zugriffspunkt oder einen Amazon S3 S3-Bucket verwendet

Amazon S3 Access Points sind benannte Netzwerk-Endpunkte, die an Buckets angehängt sind. Jeder Zugangspunkt verfügt über unterschiedliche Berechtigungen und Netzwerksteuerungen, die Sie konfigurieren können. Weitere Informationen zu Zugangspunkten finden Sie unter Verwalten des Datenzugriffs mit Amazon S3 Access Points.

Wichtig

Wenn Sie einen Amazon-Ressourcennamen (ARN) verwenden, um Ihre Daten zu importieren, muss dieser für eine Ressource gelten, die sich in derselben befindet AWS-Region , die Sie für den Zugriff auf Amazon SageMaker Studio Classic verwenden.

Sie können entweder eine einzelne Datei oder mehrere Dateien als Datensatz importieren. Sie können den Vorgang zum Importieren mehrerer Dateien verwenden, wenn Sie einen Datensatz haben, der in separate Dateien partitioniert ist. Er nimmt alle Dateien aus einem Amazon S3-Verzeichnis und importiert sie als ein einziger Datensatz. Informationen zu den Dateitypen, die Sie importieren können, und wie diese importiert werden, finden Sie in den folgenden Abschnitten.

Single File Import

Einzelne Dateien können Sie in den folgenden Formaten importieren:

  • Durch Kommas getrennte Werte () CSV

  • Parquet

  • Javascript-Objektnotation () JSON

  • Optimierte Zeile spaltenweise () ORC

  • Image – Data Wrangler verwendet OpenCV zum Importieren von Images. Weitere Informationen zu den unterstützten Image-Formaten finden Sie unter Image-Dateien lesen und schreiben.

Für Dateien, die in formatiert sindJSON, unterstützt Data Wrangler sowohl JSON Zeilen (.jsonl) als auch Dokumente (.json). JSON Wenn Sie eine Vorschau Ihrer Daten anzeigen, werden sie automatisch im Tabellenformat angezeigt. JSON Bei verschachtelten JSON Dokumenten, die größer als 5 MB sind, zeigt Data Wrangler das Schema für die Struktur und die Arrays als Werte im Datensatz an. Verwenden Sie die Operatoren Flatten structured und Explode array, damit die verschachtelten Werte in tabellarischer Form angezeigt werden. Weitere Informationen erhalten Sie unter Unverschachtelte Daten JSON und Array explodieren.

Wenn Sie einen Datensatz auswählen, können Sie ihn umbenennen, den Dateityp angeben und die erste Zeile als Kopfzeile identifizieren.

Sie können einen Datensatz, den Sie in mehrere Dateien partitioniert haben, in einem einzigen Importschritt in einem Amazon-S3-Bucket importieren.

Um einen Datensatz aus einer einzelnen Datei in Data Wrangler zu importieren, die Sie in Amazon S3 gespeichert haben:
  1. Wenn Sie sich gerade nicht auf der Registerkarte Import befinden, wählen Sie Import aus.

  2. Wählen Sie unter Verfügbar Amazon S3 aus.

  3. Führen Sie unter Tabellen-, Image- oder Zeitreihendaten aus S3 importieren einen der folgenden Schritte aus:

    • Wählen Sie in der Tabellenansicht einen Amazon-S3-Bucket aus und navigieren Sie zu der Datei, die Sie importieren.

    • Geben Sie als S3-Quelle einen Amazon S3 S3-Bucket oder einen Amazon S3 S3-Bucket an URI und wählen Sie Go aus. Amazon S3 URIs kann in einem der folgenden Formate vorliegen:

      • s3://amzn-s3-demo-bucket/example-prefix/example-file

      • example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a-s3alias/datasets/example-file

      • s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix/example-file

  4. Wählen Sie den Datensatz aus, um den Bereich mit den Importeinstellungen zu öffnen.

  5. Wenn Ihre CSV Datei eine Kopfzeile hat, aktivieren Sie das Kontrollkästchen neben Kopfzeile zur Tabelle hinzufügen.

  6. In der Vorschau-Tabelle sehen Sie eine Vorschau Ihres Datensatzes. Diese Tabelle zeigt bis zu 100 Zeilen.

  7. Überprüfen oder ändern Sie im Bereich Details den Namen und den Dateityp für Ihren Datensatz. Wenn Sie einen Namen hinzufügen, der Leerzeichen enthält, werden diese Leerzeichen beim Import Ihres Datensatzes durch Unterstriche ersetzt.

  8. Geben Sie die Probenahmekonfiguration an, die Sie verwenden möchten.

  9. Wählen Sie Importieren aus.

Multifile Import

Die Anforderungen zum Importieren mehrerer Dateien sind wie folgt:

  • Die Dateien müssen sich im selben Ordner Ihres Amazon-S3-Buckets befinden.

  • Die Dateien müssen entweder denselben Header verwenden oder gar keinen Header haben.

Die Dateien müssen eines der folgenden Formate haben:

  • CSV

  • Parquet

  • Optimierte Zeile spaltenförmig () ORC

  • Image – Data Wrangler verwendet OpenCV zum Importieren von Images. Weitere Informationen zu den unterstützten Image-Formaten finden Sie unter Image-Dateien lesen und schreiben.

Gehen Sie wie folgt vor, um mehrere Dateien zu importieren.

Um einen Datensatz aus mehreren Dateien in Data Wrangler zu importieren, die Sie in einem Amazon S3-Verzeichnis gespeichert haben
  1. Wenn Sie sich gerade nicht auf der Registerkarte Import befinden, wählen Sie Import aus.

  2. Wählen Sie unter Verfügbar Amazon S3 aus.

  3. Führen Sie unter Tabellen-, Image- oder Zeitreihendaten aus S3 importieren einen der folgenden Schritte aus:

    • Wählen Sie in der tabellarischen Ansicht einen Amazon-S3-Bucket aus und navigieren Sie zu dem Ordner, der die Dateien enthält, die Sie importieren.

    • Geben Sie als S3-Quelle den Amazon S3 S3-Bucket oder einen Amazon S3 URI mit Ihren Dateien an und wählen Sie Go aus. Folgendes ist gültigURIs:

      • s3://amzn-s3-demo-bucket/example-prefix/example-prefix

      • example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a-s3alias/example-prefix/

      • s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix

  4. Wählen Sie den Ordner mit den Dateien aus, die Sie importieren möchten. Jede Datei muss in einem der unterstützten Formate vorliegen. Ihre Dateien müssen denselben Datentyp haben.

  5. Wenn Ihr Ordner CSV Dateien mit Kopfzeilen enthält, aktivieren Sie das Kontrollkästchen neben Erste Zeile ist Kopfzeile.

  6. Wenn sich Ihre Dateien in anderen, verschachtelten Ordnern befinden, aktivieren Sie das Kontrollkästchen neben Unterverzeichnisse einbeziehen.

  7. (Optional) Wählen Sie Spalte mit Dateinamen hinzufügen und fügen Sie zum Datensatz eine Spalte hinzu, die den Dateinamen für jede Beobachtung zeigt.

  8. (Optional) Standardmäßig zeigt Data Wrangler Ihnen keine Vorschau eines Ordners. Sie können die Vorschau aktivieren, indem Sie auf die blaue Schaltfläche Vorschau aus klicken. Eine Vorschau zeigt die ersten 10 Zeilen der ersten 10 Dateien im Ordner.

  9. Überprüfen oder ändern Sie im Bereich Details den Namen und den Dateityp für Ihren Datensatz. Wenn Sie einen Namen hinzufügen, der Leerzeichen enthält, werden diese Leerzeichen beim Import Ihres Datensatzes durch Unterstriche ersetzt.

  10. Geben Sie die Probenahmekonfiguration an, die Sie verwenden möchten.

  11. Wählen Sie Datensatz importieren aus.

Mit Hilfe von Parametern können Sie auch eine Teilmenge der Dateien importieren, die einem Muster entsprechen. Mithilfe von Parametern können Sie die Dateien, die Sie importieren, selektiver auswählen. Um mit der Verwendung von Parametern zu beginnen, bearbeiten Sie die Datenquelle und wenden Sie sie auf den Pfad an, den Sie zum Importieren der Daten verwenden. Weitere Informationen finden Sie unter Wiederverwenden von Datenabläufe für verschiedene Datensätze.

Daten aus Athena importieren

Verwenden Sie Amazon Athena, um Ihre Daten von Amazon Simple Storage Service (Amazon S3) in Data Wrangler zu importieren. In Athena schreiben Sie SQL Standardabfragen, um die Daten auszuwählen, die Sie aus Amazon S3 importieren. Weitere Informationen finden Sie unter Was ist Amazon Athena?

Sie können das verwenden AWS Management Console , um Amazon Athena einzurichten. Sie müssen mindestens eine Datenbank in Athena erstellen, bevor Sie Abfragen ausführen können. Weitere Informationen zu den ersten Schritten mit Athena finden Sie unter Erste Schritte.

Athena ist direkt in Data Wrangler integriert. Sie können Athena-Abfragen schreiben, ohne die Benutzeroberfläche von Data Wrangler verlassen zu müssen.

Neben dem Schreiben einfacher Athena-Abfragen in Data Wrangler können Sie auch:

  • Athena-Arbeitsgruppen zur Verwaltung von Abfrageergebnissen verwenden. Weitere Informationen zu Arbeitsgruppen finden Sie unter Abfrageergebnisse verwalten.

  • Lebenszykluskonfigurationen zur Festlegung von Datenaufbewahrungszeiträumen. Weitere Informationen zur Datenspeicherung finden Sie unter Datenaufbewahrungszeitraum festlegen.

In Data Wrangler können Sie Abfragen in Athena vornehmen

Anmerkung

Data Wrangler unterstützt keine Verbundabfragen.

Wenn Sie Athena verwenden AWS Lake Formation , stellen Sie sicher, dass Ihre Lake Formation IAM Formation-Berechtigungen die IAM Berechtigungen für die Datenbank sagemaker_data_wrangler nicht überschreiben.

Data Wrangler bietet Ihnen die Möglichkeit, entweder den gesamten Datensatz zu importieren oder eine Stichprobe daraus. Für Athena bietet es die folgenden Optionen für die Probenahme:

  • Keine – Importiert den gesamten Datensatz.

  • Erstes K – Stichprobe der ersten K Zeilen des Datensatzes, wobei K eine von Ihnen angegebene Ganzzahl ist.

  • Randomisiert – Nimmt eine zufällige Stichprobe mit einer von Ihnen angegebenen Größe.

  • Stratifiziert – Entnimmt eine stratifizierte zufällige Stichprobe. Eine stratifizierte Stichprobe behält das Verhältnis der Werte in einer Spalte bei.

Das folgende Verfahren zeigt, wie ein Datensatz von Athena in Data Wrangler importiert wird.

Um einen Datensatz von Athena in Data Wrangler zu importieren
  1. Melden Sie sich bei Amazon SageMaker Console an.

  2. Wählen Sie Studio.

  3. Wählen Sie App starten.

  4. Wählen Sie in der Auswahlliste Studio aus.

  5. Wählen Sie das Symbol Startseite aus.

  6. Wählen Sie Datenaus.

  7. Wählen Sie Data Wrangler.

  8. Wählen Sie Daten importieren aus.

  9. Wählen Sie unter Verfügbar Amazon Athena aus.

  10. Wählen Sie für Datenkatalog einen Datenkatalog aus.

  11. Wählen Sie von der Auswahlliste Datenbank die Datenbank aus, die Sie abfragen möchten. Wenn Sie eine Datenbank auswählen, können Sie mithilfe der unter Details aufgelisteten Tabellen eine Vorschau aller Tabellen in Ihrer Datenbank anzeigen.

  12. (Optional) Wählen Sie Erweiterte Konfiguration aus.

    1. Wählen Sie eine Arbeitsgruppe aus.

    2. Wenn Ihre Arbeitsgruppe den Amazon S3-Ausgabespeicherort nicht durchgesetzt hat oder wenn Sie keine Arbeitsgruppe verwenden, geben Sie einen Wert für den Amazon S3-Speicherort für die Abfrageergebnisse an.

    3. (Optional) Aktivieren Sie für Datenaufbewahrungsdauer das Kontrollkästchen, um eine Datenaufbewahrungsdauer festzulegen, und geben Sie die Anzahl der Tage an, für die die Daten gespeichert werden sollen, bevor sie gelöscht werden.

    4. (Optional) Data Wrangler speichert die Verbindung standardmäßig. Sie können das Kontrollkästchen deaktivieren und die Verbindung nicht speichern.

  13. Wählen Sie für Probenahme eine Methode zur Probenahme aus. Wählen Sie Keine, um die Probenahme zu deaktivieren.

  14. Geben Sie Ihre Abfrage in den Abfrage-Editor ein und verwenden Sie die Schaltfläche Ausführen, um die Abfrage auszuführen. Nach erfolgreicher Abfrage sehen Sie im Editor eine Vorschau Ihres Ergebnisses.

    Anmerkung

    Salesforce-Daten verwenden den Typ timestamptz. Wenn Sie die Spalte für Zeitstempel abfragen, die Sie aus Salesforce in Athena importiert haben, wandeln Sie die Daten in der Spalte in den Typ timestamp um. Die folgende Abfrage wandelt die Spalte für Zeitstempel in den richtigen Typ um.

    # cast column timestamptz_col as timestamp type, and name it as timestamp_col select cast(timestamptz_col as timestamp) as timestamp_col from table
  15. Um die Ergebnisse Ihrer Abfrage zu importieren, wählen Sie Import aus.

Sobald Sie das obige Verfahren abgeschlossen haben, erscheint der Datensatz, den Sie abgefragt und importiert haben, im Data Wrangler-Ablauf.

Data Wrangler speichert die Verbindungseinstellungen standardmäßig als neue Verbindung. Wenn Sie Ihre Daten importieren, wird die Abfrage, die Sie bereits angegeben haben, als neue Verbindung angezeigt. Die gespeicherten Verbindungen speichern Informationen über die Athena-Arbeitsgruppen und Amazon-S3-Buckets, die Sie verwenden. Wenn Sie erneut eine Verbindung zu der Datenquelle herstellen, können Sie die gespeicherte Verbindung auswählen.

Abfrageergebnisse verwalten

Data Wrangler unterstützt die Verwendung von Athena-Arbeitsgruppen zur Verwaltung der Abfrageergebnisse innerhalb eines AWS -Kontos. Sie können für jede Arbeitsgruppe einen Amazon-S3-Ausgabespeicherort angeben. Sie können auch angeben, ob die Ausgabe der Abfrage an verschiedene Amazon S3-Speicherorte gesendet werden kann. Weitere Informationen finden Sie unter Zugriffs- und Kostenkontrolle für Abfragen mit Hilfe von Arbeitsgruppen.

Ihre Arbeitsgruppe ist möglicherweise so konfiguriert, dass sie den Amazon S3-Abfragespeicherort erzwingt. Sie können den Ausgabespeicherort der Abfrageergebnisse für diese Arbeitsgruppen nicht ändern.

Wenn Sie keine Arbeitsgruppe verwenden oder keinen Ausgabespeicherort für Ihre Abfragen angeben, verwendet Data Wrangler den standardmäßigen Amazon S3 S3-Bucket in derselben AWS Region, in der sich Ihre Studio Classic-Instance befindet, um Athena-Abfrageergebnisse zu speichern. Es erstellt temporäre Tabellen in dieser Datenbank, um die Abfrageausgabe in diesen Amazon-S3-Bucket zu verschieben. Es löscht diese Tabellen, sobald Daten importiert wurden. Die Datenbank sagemaker_data_wrangler bleibt jedoch bestehen. Weitere Informationen hierzu finden Sie unter Speicher für importierte Daten.

Um Athena-Arbeitsgruppen zu verwenden, richten Sie die IAM Richtlinie ein, die den Zugriff auf Arbeitsgruppen gewährt. Wenn Sie eine SageMaker-Execution-Role verwenden, empfehlen wir, die Richtlinie zur Rolle hinzuzufügen. Weitere Informationen zu IAM Richtlinien für Arbeitsgruppen finden Sie unter IAMRichtlinien für den Zugriff auf Arbeitsgruppen. Beispielrichtlinien für Arbeitsgruppen finden Sie unter Beispielrichtlinien für Arbeitsgruppen.

Datenaufbewahrungszeitraum festlegen

Data Wrangler legt automatisch eine Datenaufbewahrungsdauer für die Abfrageergebnisse fest. Die Ergebnisse werden nach Ablauf der Aufbewahrungsfrist gelöscht. Die Standardaufbewahrungsdauer beträgt z. B. fünf Tage. Die Ergebnisse der Abfrage werden nach fünf Tagen gelöscht. Diese Konfiguration soll Ihnen helfen, Daten zu bereinigen, die Sie nicht mehr verwenden. Durch das Bereinigen Ihrer Daten wird verhindert, dass unbefugte Benutzer darauf zugreifen können. Es hilft auch, die Kosten zum Speichern Ihrer Daten auf Amazon S3 zu kontrollieren.

Wenn Sie keinen Aufbewahrungszeitraum festlegen, bestimmt die Amazon S3-Lebenszykluskonfiguration die Dauer, für die die Objekte gespeichert werden. Die Datenaufbewahrungsrichtlinie, die Sie für die Lebenszykluskonfiguration angegeben haben, entfernt alle Abfrageergebnisse, die älter sind als die von Ihnen angegebene Lebenszykluskonfiguration. Weitere Informationen finden Sie unter Lebenszykluskonfiguration in einem Bucket festlegen.

Data Wrangler verwendet Amazon S3-Lebenszykluskonfigurationen, um die Aufbewahrung und den Ablauf von Daten zu verwalten. Sie müssen Ihrer Amazon SageMaker Studio IAM Classic-Ausführungsrolle Berechtigungen zur Verwaltung von Bucket-Lebenszykluskonfigurationen erteilen. Gehen Sie wie folgt vor, um Berechtigungen zu erteilen.

Gehen Sie wie folgt vor, um Berechtigungen zur Verwaltung der Lebenszykluskonfiguration zu erteilen.

  1. Melden Sie sich bei der an AWS Management Console und öffnen Sie die IAM Konsole unter https://console.aws.amazon.com/iam/.

  2. Wählen Sie Roles.

  3. Geben Sie in der Suchleiste die SageMaker Amazon-Ausführungsrolle an, die Amazon SageMaker Studio Classic verwendet.

  4. Wählen Sie die Rolle aus.

  5. Wählen Sie Add permissions (Berechtigungen hinzufügen) aus.

  6. Wählen Sie Inline-Richtlinie erstellen aus.

  7. Geben Sie für Service S3 an und wählen Sie diesen aus.

  8. Wählen Sie im Abschnitt Lesen die Option GetLifecycleConfiguration.

  9. Wählen Sie im Abschnitt Schreiben die Option PutLifecycleConfiguration.

  10. Wählen Sie für Ressourcen die Option Spezifisch aus.

  11. Wählen Sie für Aktionen das Pfeilsymbol neben Berechtigungsverwaltung aus.

  12. Wählen Sie PutResourcePolicy.

  13. Wählen Sie für Ressourcen die Option Spezifisch aus.

  14. Wählen Sie das Kontrollkästchen neben Alle in diesem Konto aus.

  15. Wählen Sie Richtlinie prüfen.

  16. Geben Sie für Name einen Namen an.

  17. Wählen Sie Create Policy (Richtlinie erstellen) aus.

Daten aus Amazon Redshift importieren

Amazon Redshift ist ein vollständig verwalteter Data-Warehouse-Service in Petabytegröße in der Cloud. Der erste Schritt zur Erstellung eines Data Warehouse besteht darin, eine Reihe von Knoten zu starten, die als Amazon-Redshift-Cluster bezeichnet werden. Sobald Sie Ihren Cluster bereitgestellt haben, können Sie Ihren Datensatz hochladen und anschließend Datenanalyseabfragen vornehmen.

Sie können in Data Wrangler eine Verbindung zu einem oder mehreren Amazon Redshift-Clustern herstellen und diese abfragen. Um diese Importoption verwenden zu können, müssen Sie mindestens einen Cluster in Amazon Redshift erstellen. Wie das geht, erfahren Sie unter Erste Schritte mit Amazon Redshift.

Sie können die Ergebnisse Ihrer Amazon Redshift-Abfrage an einem der folgenden Speicherorte ausgeben:

  • Der Standard-Amazon-S3-Bucket

  • Ein Amazon S3-Ausgabespeicherort, den Sie angeben

Sie können entweder den gesamten Datensatz importieren oder eine Stichprobe davon. Für Amazon Redshift bietet es die folgenden Probenahme-Optionen:

  • Keine – Importiert den gesamten Datensatz.

  • Erstes K – Stichprobe der ersten K Zeilen des Datensatzes, wobei K eine von Ihnen angegebene Ganzzahl ist.

  • Randomisiert – Nimmt eine zufällige Stichprobe mit einer von Ihnen angegebenen Größe.

  • Stratifiziert – Entnimmt eine stratifizierte zufällige Stichprobe. Eine stratifizierte Stichprobe behält das Verhältnis der Werte in einer Spalte bei.

Der standardmäßige Amazon S3 S3-Bucket befindet sich in derselben AWS Region, in der sich Ihre Studio Classic-Instance zum Speichern von Amazon Redshift Redshift-Abfrageergebnissen befindet. Weitere Informationen finden Sie unter Speicher für importierte Daten.

Für den standardmäßigen Amazon-S3-Bucket oder den von Ihnen angegebenen Bucket haben Sie die folgenden Verschlüsselungsoptionen:

  • Die standardmäßige AWS serviceseitige Verschlüsselung mit einem von Amazon S3 verwalteten Schlüssel (SSE-S3)

  • Ein AWS Key Management Service (AWS KMS) Schlüssel, den Sie angeben

Ein AWS KMS Schlüssel ist ein Verschlüsselungsschlüssel, den Sie erstellen und verwalten. Weitere Informationen zu KMS Schlüsseln finden Sie unter AWS Key Management Service.

Sie können einen AWS KMS Schlüssel entweder mit dem Schlüssel ARN oder dem ARN Ihres AWS Kontos angeben.

Wenn Sie die IAM verwaltete Richtlinie verwendenAmazonSageMakerFullAccess, um einer Rolle die Berechtigung zur Verwendung von Data Wrangler in Studio Classic zu erteilen, muss Ihr Datenbankbenutzername das Präfix haben. sagemaker_access

Gehen Sie wie folgt vor, um zu erfahren, wie Sie einen neuen Cluster hinzufügen.

Anmerkung

Data Wrangler verwendet die Amazon Redshift Redshift-Daten API mit temporären Anmeldeinformationen. Weitere Informationen dazu API finden Sie unter Using the Amazon Redshift Data API im Amazon Redshift Management Guide.

So stellen Sie eine Verbindung zu einem Amazon-Redshift-Cluster her
  1. Melden Sie sich bei Amazon SageMaker Console an.

  2. Wählen Sie Studio.

  3. Wählen Sie App starten.

  4. Wählen Sie in der Auswahlliste Studio aus.

  5. Wählen Sie das Symbol Startseite aus.

  6. Wählen Sie Datenaus.

  7. Wählen Sie Data Wrangler.

  8. Wählen Sie Daten importieren aus.

  9. Wählen Sie unter Verfügbar Amazon Athena aus.

  10. Wählen Sie Amazon Redshift aus.

  11. Wählen Sie Temporäre Anmeldeinformationen (IAM) als Typ aus.

  12. Geben Sie einen Verbindungsnamen ein. Dies ist ein Name, der von Data Wrangler verwendet wird, um diese Verbindung zu identifizieren.

  13. Geben Sie die Cluster-ID ein, um anzugeben, zu welchem Cluster Sie eine Verbindung herstellen möchten. Hinweis: Geben Sie nur die Cluster-ID und nicht den vollständigen Endpunkt des Amazon-Redshift-Clusters ein.

  14. Geben Sie den Datenbanknamen der Datenbank ein, mit der Sie eine Verbindung herstellen möchten.

  15. Geben Sie einen Datenbankbenutzer ein, um den Benutzer zu identifizieren, den Sie für die Verbindung mit der Datenbank verwenden möchten.

  16. Geben Sie UNLOADIAMunter Rolle die IAM Rolle der Rolle ein, die ARN der Amazon Redshift Redshift-Cluster übernehmen soll, um Daten in Amazon S3 zu verschieben und zu schreiben. Weitere Informationen zu dieser Rolle finden Sie unter Authorizing Amazon Redshift to access other AWS services in Ihrem Namen im Amazon Redshift Management Guide.

  17. Wählen Sie Connect aus.

  18. (Optional) Geben Sie für den Amazon S3 S3-Ausgabespeicherort den S3 URI an, in dem die Abfrageergebnisse gespeichert werden sollen.

  19. (Optional) Geben Sie für die KMSSchlüssel-ID die ARN des AWS KMS Schlüssels oder Alias an. Die folgende Abbildung zeigt Ihnen, wo Sie jeden dieser Schlüssel in der AWS Management Console finden.

    Der Speicherort des AWS KMS AliasARN, des Aliasnamens und des Schlüssels ARN in der AWS KMS Konsole.

Die folgende Abbildung zeigt alle Felder aus dem vorangehenden Verfahren.

Das Verbindungsfenster Amazon Redshift hinzufügen.

Sobald Ihre Verbindung erfolgreich hergestellt wurde, erscheint sie als Datenquelle unter Datenimport. Wählen Sie diese Datenquelle aus, um Ihre Datenbank abzufragen und Daten zu importieren.

Gehen Sie wie folgt vor, um Daten aus Amazon Redshift abzufragen und zu importieren
  1. Wählen Sie aus Datenquellen die Verbindung aus, über die Sie die Abfrage vornehmen möchten.

  2. Wählen Sie ein Schema aus. Weitere Informationen zu Amazon Redshift-Schemata finden Sie unter Schemata im Entwicklerhandbuch für Amazon Redshift-Datenbanken.

  3. (Optional) Geben Sie unter Erweiterte Konfiguration die Probenahme-Methode an, die Sie verwenden möchten.

  4. Geben Sie Ihre Abfrage in den Abfrage-Editor ein und wählen Sie Ausführen, um die Abfrage auszuführen. Nach erfolgreicher Abfrage sehen Sie im Editor eine Vorschau Ihres Ergebnisses.

  5. Wählen Sie Datensatz importieren aus, um den abgefragten Datensatz zu importieren.

  6. Geben Sie einen Datensatznamen ein. Wenn Sie einen Datensatznamen hinzufügen, der Leerzeichen enthält, werden diese Leerzeichen beim Import Ihres Datensatzes durch Unterstriche ersetzt.

  7. Wählen Sie Hinzufügen aus.

Gehen Sie wie folgt vor, um einen Datensatz zu bearbeiten.

  1. Navigieren Sie zu Ihrem Data Wrangler-Ablauf.

  2. Wählen Sie das + neben Quelle – Gesampelt.

  3. Ändern Sie die importierten Daten.

  4. Wählen Sie Anwenden aus.

Daten von Amazon importieren EMR

Sie können Amazon EMR als Datenquelle für Ihren Amazon SageMaker Data Wrangler-Flow verwenden. Amazon EMR ist eine verwaltete Cluster-Plattform, mit der Sie große Datenmengen verarbeiten und analysieren können. Weitere Informationen zu Amazon EMR finden Sie unter Was ist AmazonEMR? . Um einen Datensatz zu importierenEMR, stellen Sie eine Verbindung zu ihm her und fragen ihn ab.

Wichtig

Sie müssen die folgenden Voraussetzungen erfüllen, um eine Verbindung zu einem EMR Amazon-Cluster herzustellen:

Voraussetzungen
  • Netzwerkkonfigurationen
    • Sie haben ein Amazon VPC in der Region, mit der Sie Amazon SageMaker Studio Classic und Amazon startenEMR.

    • EMRSowohl Amazon als auch Amazon SageMaker Studio Classic müssen in privaten Subnetzen gestartet werden. Sie können sich im selben oder in verschiedenen Subnetzen befinden.

    • Amazon SageMaker Studio Classic muss sich im Modus „VPCNur“ befinden.

      Weitere Informationen zum Erstellen von finden Sie VPC unter Erstellen eines VPC.

      Weitere Informationen zum Erstellen von finden Sie unter SageMaker Studio Classic-Notizbücher in a VPC mit externen Ressourcen Connect. VPC

    • Die EMR Amazon-Cluster, die Sie ausführen, müssen sich im selben Amazon befindenVPC.

    • Die EMR Amazon-Cluster und Amazon VPC müssen sich auf demselben AWS Konto befinden.

    • Auf Ihren EMR Amazon-Clustern wird Hive oder Presto ausgeführt.

      • Hive-Cluster müssen eingehenden Datenverkehr von Studio Classic-Sicherheitsgruppen auf Port 10000 zulassen.

      • Presto-Cluster müssen eingehenden Datenverkehr von Studio Classic-Sicherheitsgruppen an Port 8889 zulassen.

        Anmerkung

        Die Portnummer ist für EMR Amazon-Cluster, die IAM Rollen verwenden, unterschiedlich. Weitere Informationen finden Sie am Ende des Abschnitts mit den Voraussetzungen.

  • SageMaker Studio Classic
    • Amazon SageMaker Studio Classic muss Jupyter Lab Version 3 ausführen. Informationen zur Aktualisierung der Jupyter-Lab-Version finden Sie unter. Die JupyterLab Version einer Anwendung von der Konsole aus anzeigen und aktualisieren

    • Amazon SageMaker Studio Classic hat eine IAM Rolle, die den Benutzerzugriff steuert. Die IAM Standardrolle, die Sie für die Ausführung von Amazon SageMaker Studio Classic verwenden, hat keine Richtlinien, die Ihnen Zugriff auf EMR Amazon-Cluster gewähren können. Sie müssen die Richtlinie zur Gewährung von Berechtigungen an die IAM Rolle anhängen. Weitere Informationen finden Sie unter EMRAmazon-Cluster auflisten.

    • Der IAM Rolle muss außerdem die folgende Richtlinie beigefügt seinsecretsmanager:PutResourcePolicy.

    • Wenn Sie eine Studio Classic-Domäne verwenden, die Sie bereits erstellt haben, stellen Sie sicher, dass sie AppNetworkAccessType sich im Modus „VPCNur“ befindet. Informationen zum Aktualisieren einer Domain auf den VPC Nur-Modus finden Sie unter. Fahren Sie SageMaker Studio Classic herunter und aktualisieren Sie es

  • EMRAmazon-Cluster
    • Sie müssen Hive oder Presto in Ihrem Cluster installiert haben.

    • Die EMR Amazon-Version muss Version 5.5.0 oder höher sein.

      Anmerkung

      Amazon EMR unterstützt die auto Kündigung. Automatisches Beenden verhindert, dass inaktive Cluster ausgeführt werden, und verhindert, dass Ihnen Kosten entstehen. Die folgenden Versionen unterstützen automatisches Beenden:

      • Für 6.x-Versionen Version 6.1.0 oder später.

      • Für 5.x-Versionen Version 5.30.0 oder später.

  • EMRAmazon-Cluster, die IAM Runtime-Rollen verwenden

Ein Amazon VPC ist ein virtuelles Netzwerk, das logisch von anderen Netzwerken in der AWS Cloud isoliert ist. Amazon SageMaker Studio Classic und Ihr EMR Amazon-Cluster existieren nur innerhalb von AmazonVPC.

Gehen Sie wie folgt vor, um Amazon SageMaker Studio Classic in einem Amazon zu startenVPC.

Gehen Sie wie folgt vorVPC, um Studio Classic innerhalb von zu starten.

  1. Navigieren Sie zur SageMaker Konsole unter https://console.aws.amazon.com/sagemaker/.

  2. Wählen Sie Launch SageMaker Studio Classic.

  3. Wählen Sie Standardeinstellung.

  4. Wählen Sie unter Standard-Ausführungsrolle die IAM Rolle aus, mit der Studio Classic eingerichtet werden soll.

  5. Wählen Sie den VPC Ort aus, an dem Sie die EMR Amazon-Cluster gestartet haben.

  6. Wählen Sie als Subnetz ein privates Subnetz aus.

  7. Geben Sie unter Sicherheitsgruppe (n) die Sicherheitsgruppen an, die Sie zur Steuerung zwischen Ihren Gruppen verwendenVPC.

  8. Wählen Sie VPCNur.

  9. (Optional) AWS verwendet einen Standard-Verschlüsselungsschlüssel. Sie können einen AWS Key Management Service Schlüssel zur Verschlüsselung Ihrer Daten angeben.

  10. Wählen Sie Weiter.

  11. Wählen Sie unter Studio-Einstellungen die Konfigurationen aus, die am besten für Sie geeignet sind.

  12. Wählen Sie Weiter, um die SageMaker Canvas-Einstellungen zu überspringen.

  13. Wählen Sie Weiter, um die RStudio Einstellungen zu überspringen.

Wenn Sie noch keinen EMR Amazon-Cluster bereit haben, können Sie das folgende Verfahren verwenden, um einen zu erstellen. Weitere Informationen zu Amazon EMR finden Sie unter Was ist AmazonEMR?

Gehen Sie wie folgt vor, um einen Cluster zu erstellen.

  1. Navigieren Sie zur AWS Management Console.

  2. Geben Sie in die Suchleiste Amazon EMR ein.

  3. Wählen Sie Cluster erstellen.

  4. Geben Sie als Cluster-Name den Namen Ihres Clusters ein.

  5. Wählen Sie als Veröffentlichung die veröffentlichte Version des Clusters aus.

    Anmerkung

    Amazon EMR unterstützt die auto Kündigung für die folgenden Versionen:

    • Für 6.x-Versionen: Versionen 6.1.0 oder später

    • Für 5.x-Versionen die Versionen 5.30.0 oder später

    Automatisches Beenden verhindert, dass inaktive Cluster ausgeführt werden, und verhindert, dass Ihnen Kosten entstehen.

  6. (Optional) Wählen Sie für Anwendungen Presto aus.

  7. Wählen Sie die Anwendung aus, die Sie auf dem Cluster ausführen.

  8. Geben Sie unter Netzwerk für Hardwarekonfiguration die Hardwarekonfigurationseinstellungen an.

    Wichtig

    Wählen Sie für Networking VPC das aus, auf dem Amazon SageMaker Studio Classic ausgeführt wird, und wählen Sie ein privates Subnetz aus.

  9. Geben Sie unter Sicherheit und Zugriff die Sicherheitseinstellungen an.

  10. Wählen Sie Create (Erstellen) aus.

Ein Tutorial zum Erstellen eines EMR Amazon-Clusters finden Sie unter Erste Schritte mit Amazon EMR. Informationen zu bewährten Methoden für die Konfiguration eines Clusters finden Sie unter Überlegungen und bewährte Methoden.

Anmerkung

Aus Sicherheitsgründen kann Data Wrangler nur Verbindungen zu privaten Subnetzen VPCs herstellen. Sie können keine Verbindung zum Master-Knoten herstellen, es sei denn, Sie verwenden ihn AWS Systems Manager für Ihre EMR Amazon-Instances. Weitere Informationen finden Sie unter Sichern des Zugriffs auf EMR Cluster mithilfe von AWS Systems Manager.

Sie können derzeit die folgenden Methoden verwenden, um auf einen EMR Amazon-Cluster zuzugreifen:

  • Keine Authentifizierung

  • Lightweight Directory Access Protocol (LDAP)

  • IAM(Runtime-Rolle)

Wenn Sie die Authentifizierung nicht verwenden oder nicht verwenden, müssen LDAP Sie möglicherweise mehrere Cluster und EC2 Amazon-Instance-Profile erstellen. Wenn Sie Administrator sind, müssen Sie ggf. Benutzergruppen mit unterschiedlichen Zugriffsebenen auf die Daten anlegen. Diese Methoden können zu einem Verwaltungsaufwand führen, der die Verwaltung Ihrer Benutzer erschwert.

Wir empfehlen die Verwendung einer IAM Runtime-Rolle, die es mehreren Benutzern ermöglicht, sich mit demselben EMR Amazon-Cluster zu verbinden. Eine Runtime-Rolle ist eine IAM Rolle, die Sie einem Benutzer zuweisen können, der eine Verbindung zu einem EMR Amazon-Cluster herstellt. Sie können die IAM Runtime-Rolle so konfigurieren, dass sie über spezifische Berechtigungen für jede Benutzergruppe verfügt.

Verwenden Sie die folgenden Abschnitte, um einen Presto- oder EMR Hive-Amazon-Cluster mit LDAP aktivierter Option zu erstellen.

Presto
Wichtig

Um es AWS Glue als Metastore für Presto-Tabellen zu verwenden, wählen Sie Für Presto-Tabellenmetadaten verwenden aus, um die Ergebnisse Ihrer EMR Amazon-Abfragen in einem AWS Glue Datenkatalog zu speichern, wenn Sie einen Cluster starten. EMR Durch das Speichern der Abfrageergebnisse in einem AWS Glue Datenkatalog können Sie sich vor Gebühren schützen.

Um große Datensätze auf EMR Amazon-Clustern abzufragen, müssen Sie der Presto-Konfigurationsdatei auf Ihren EMR Amazon-Clustern die folgenden Eigenschaften hinzufügen:

[{"classification":"presto-config","properties":{ "http-server.max-request-header-size":"5MB", "http-server.max-response-header-size":"5MB"}}]

Sie können die Konfigurationseinstellungen auch ändern, wenn Sie den EMR Amazon-Cluster starten.

Die Konfigurationsdatei für Ihren EMR Amazon-Cluster befindet sich unter dem folgenden Pfad:/etc/presto/conf/config.properties.

Gehen Sie wie folgt vor, um einen Presto-Cluster mit LDAP aktiviertem Status zu erstellen.

Gehen Sie wie folgt vor, um einen Cluster zu erstellen.

  1. Navigieren Sie zur AWS Management Console.

  2. Geben Sie in die Suchleiste Amazon EMR ein.

  3. Wählen Sie Cluster erstellen.

  4. Geben Sie als Cluster-Name den Namen Ihres Clusters ein.

  5. Wählen Sie als Veröffentlichung die veröffentlichte Version des Clusters aus.

    Anmerkung

    Amazon EMR unterstützt die auto Kündigung für die folgenden Versionen:

    • Für 6.x-Versionen: Versionen 6.1.0 oder später

    • Für 5.x-Versionen die Versionen 5.30.0 oder später

    Durch die automatische Beendigung wird verhindert, dass inaktive Cluster ausgeführt werden, damit Ihnen keine Kosten entstehen.

  6. Wählen Sie die Anwendung aus, die Sie auf dem Cluster ausführen.

  7. Geben Sie unter Netzwerk für Hardwarekonfiguration die Hardwarekonfigurationseinstellungen an.

    Wichtig

    Wählen Sie für Networking VPC das aus, auf dem Amazon SageMaker Studio Classic ausgeführt wird, und wählen Sie ein privates Subnetz aus.

  8. Geben Sie unter Sicherheit und Zugriff die Sicherheitseinstellungen an.

  9. Wählen Sie Create (Erstellen) aus.

Hive
Wichtig

Um es AWS Glue als Metastore für Hive-Tabellen zu verwenden, wählen Sie Für Hive-Tabellenmetadaten verwenden aus, um die Ergebnisse Ihrer EMR Amazon-Abfragen in einem AWS Glue Datenkatalog zu speichern, wenn Sie einen Cluster starten. EMR Das Speichern der Abfrageergebnisse in einem AWS Glue Datenkatalog kann Ihnen Kosten ersparen.

Um große Datensätze auf EMR Amazon-Clustern abfragen zu können, fügen Sie der Hive-Konfigurationsdatei auf Ihren EMR Amazon-Clustern die folgenden Eigenschaften hinzu:

[{"classification":"hive-site", "properties" :{"hive.resultset.use.unique.column.names":"false"}}]

Sie können die Konfigurationseinstellungen auch ändern, wenn Sie den EMR Amazon-Cluster starten.

Die Konfigurationsdatei für Ihren EMR Amazon-Cluster befindet sich unter dem folgenden Pfad:/etc/hive/conf/hive-site.xml. Sie können die folgende Eigenschaft angeben und den Cluster neu starten:

<property> <name>hive.resultset.use.unique.column.names</name> <value>false</value> </property>

Gehen Sie wie folgt vor, um einen Hive-Cluster mit LDAP aktivierter Option zu erstellen.

Gehen Sie wie folgt vor, um einen Hive-Cluster mit LDAP aktivierter Option zu erstellen.

  1. Navigieren Sie zur AWS Management Console.

  2. Geben Sie in die Suchleiste Amazon EMR ein.

  3. Wählen Sie Cluster erstellen.

  4. Wählen Sie Go to advanced options (Zu erweiterten Optionen navigieren) aus.

  5. Wählen Sie für Release eine EMR Amazon-Release-Version aus.

  6. Die Hive-Konfigurationsoption ist standardmäßig ausgewählt. Achten Sie darauf, dass neben der Hive-Option ein Kontrollkästchen erscheint.

  7. (Optional) Sie können auch Presto als Konfigurationsoption auswählen, um sowohl Hive als auch Presto auf Ihrem Cluster zu aktivieren.

  8. (Optional) Wählen Sie Für Hive-Tabellenmetadaten verwenden aus, um die Ergebnisse Ihrer EMR Amazon-Abfragen in einem AWS Glue Datenkatalog zu speichern. Durch das Speichern der Abfrageergebnisse in einem AWS Glue Katalog können Sie sich vor Gebühren schützen. Weitere Informationen finden Sie unter Verwenden des AWS Glue Datenkatalogs als Metastore für Hive.

    Anmerkung

    Für das Speichern der Abfrageergebnisse in einem Datenkatalog ist EMR Amazon-Version 5.8.0 oder höher erforderlich.

  9. Geben Sie unter Konfiguration eingeben Folgendes an: JSON

    [ { "classification": "hive-site", "properties": { "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org", "hive.server2.authentication": "LDAP", "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389" } } ]
    Anmerkung

    Aus Sicherheitsgründen empfehlen wir, die Aktivierung SSL HiveServer von durch Hinzufügen einiger Eigenschaften auf der vorherigen JSON Hive-Site zu aktivieren. Weitere Informationen finden Sie unter Aktivieren SSL am 2. HiveServer

  10. Geben Sie die verbleibenden Cluster-Einstellungen an und erstellen Sie einen Cluster.

Verwenden Sie die folgenden Abschnitte, um die LDAP Authentifizierung für EMR Amazon-Cluster zu verwenden, die Sie bereits erstellt haben.

LDAP for Presto

Für die Verwendung LDAP auf einem Cluster, auf dem Presto ausgeführt wird, ist Zugriff auf den Presto-Koordinator über erforderlich. HTTPS Gehen Sie wie folgt vor, um den Zugriff zu gewähren:

  • Aktivieren Sie den Zugriff an Port 636

  • SSLFür den Presto-Koordinator aktivieren

Verwenden Sie die folgende Vorlage, um Presto zu konfigurieren:

- Classification: presto-config ConfigurationProperties: http-server.authentication.type: 'PASSWORD' http-server.https.enabled: 'true' http-server.https.port: '8889' http-server.http.port: '8899' node-scheduler.include-coordinator: 'true' http-server.https.keystore.path: '/path/to/keystore/path/for/presto' http-server.https.keystore.key: 'keystore-key-password' discovery.uri: 'http://master-node-dns-name:8899' - Classification: presto-password-authenticator ConfigurationProperties: password-authenticator.name: 'ldap' ldap.url: !Sub 'ldaps://ldap-server-dns-name:636' ldap.user-bind-pattern: "uid=${USER},dc=example,dc=org" internal-communication.authentication.ldap.user: "ldap-user-name" internal-communication.authentication.ldap.password: "ldap-password"

Informationen zur Einrichtung LDAP in Presto finden Sie in den folgenden Ressourcen:

Anmerkung

Aus Sicherheitsgründen empfehlen wir die Aktivierung SSL für Presto. Weitere Informationen finden Sie unter Sichere interne Kommunikation.

LDAP for Hive

Um Hive LDAP für einen von Ihnen erstellten Cluster zu verwenden, gehen Sie wie folgt vor: Konfigurieren Sie eine Instanzgruppe in der Konsole neu.

Sie geben den Namen des Clusters an, mit dem Sie eine Verbindung herstellen.

[ { "classification": "hive-site", "properties": { "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org", "hive.server2.authentication": "LDAP", "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389" } } ]

Gehen Sie wie folgt vor, um Daten aus einem Cluster zu importieren.

Gehen Sie wie folgt vor, um Daten aus einem Cluster zu importieren.

  1. Öffnen Sie einen Data Wrangler-Ablauf.

  2. Wählen Sie Create Connection (Verbindung erstellen) aus.

  3. Wählen Sie Amazon EMR.

  4. Führen Sie eine der folgenden Aufgaben aus.

    • (Optional) Geben Sie für Secrets ARN die Amazon-Ressourcennummer (ARN) der Datenbank innerhalb des Clusters an. Secrets geben zusätzliche Sicherheit. Weitere Informationen zu Geheimnissen finden Sie unter Was ist AWS Secrets Manager? Informationen zum Erstellen eines Geheimnisses für Ihren Cluster finden Sie unter Ein AWS Secrets Manager Geheimnis für Ihren Cluster erstellen.

      Wichtig

      Sie müssen ein Geheimnis angeben, wenn Sie eine IAM Runtime-Rolle für die Authentifizierung verwenden.

    • Wählen Sie aus der Dropdown-Tabelle einen Cluster aus.

  5. Wählen Sie Weiter.

  6. Für Wählen Sie einen Endpunkt für example-cluster-name Cluster, wählen Sie eine Abfrage-Engine aus.

  7. (Optional) Wählen Sie Verbindung speichern aus.

  8. Wählen Sie Weiter aus, wählen Sie Anmeldung und wählen Sie dann eine der folgenden Optionen aus:

    • Keine Authentifizierung

    • LDAP

    • IAM

  9. Für die Anmeldung bei example-cluster-name Cluster, geben Sie den Benutzernamen und das Passwort für den Cluster an.

  10. Wählen Sie Connect aus.

  11. Geben Sie im Abfrage-Editor eine SQL Abfrage an.

  12. Wählen Sie Ausführen aus.

  13. Wählen Sie Importieren aus.

Ein AWS Secrets Manager Geheimnis für Ihren Cluster erstellen

Wenn Sie eine IAM Runtime-Rolle für den Zugriff auf Ihren EMR Amazon-Cluster verwenden, müssen Sie die Anmeldeinformationen, die Sie für den Zugriff auf Amazon verwenden, EMR als Secrets Manager Manager-Geheimnis speichern. Sie speichern alle Anmeldeinformationen, die Sie für den Zugriff auf den Cluster verwenden, innerhalb des Secrets.

Sie müssen die folgenden Informationen im Secret speichern:

  • JDBCEndpunkt — jdbc:hive2://

  • DNSname — Der DNS Name Ihres EMR Amazon-Clusters. Dies ist entweder der Endpunkt für den Primärknoten oder der Hostname.

  • Port – 8446

Auch die folgenden Zusatzinformationen können Sie innerhalb des Secrets speichern:

  • IAMRolle — Die IAM Rolle, die Sie für den Zugriff auf den Cluster verwenden. Data Wrangler verwendet standardmäßig Ihre SageMaker Ausführungsrolle.

  • Truststore-Pfad – Standardmäßig erstellt Data Wrangler einen Truststore-Pfad für Sie. Außerdem können Sie einen eigenen Truststore-Pfad verwenden. Weitere Informationen zu Truststore-Pfaden finden Sie unter Verschlüsselung bei der Übertragung in 2. HiveServer

  • Truststore-Passwort – Standardmäßig erstellt Data Wrangler ein Truststore-Passwort für Sie. Außerdem können Sie einen eigenen Truststore-Pfad verwenden. Weitere Informationen zu Truststore-Pfaden finden Sie unter Verschlüsselung bei der Übertragung in 2. HiveServer

Gehen Sie wie folgt vor, um die Anmeldeinformationen in einem Secrets-Manager-Secret zu speichern.

Gehen Sie wie folgt vor, um Ihre Anmeldeinformationen als Secret zu speichern.

  1. Navigieren Sie zur AWS Management Console.

  2. Geben Sie im Suchfeld Secrets Manager an.

  3. Wählen Sie AWS Secrets Manager.

  4. Wählen Sie Store a new secret (Ein neues Secret speichern).

  5. Als Secret-Typ wählen Sie Anderer Secret-Typ aus.

  6. Wählen Sie unter Schlüssel/Wert-Paare die Option Klartext aus.

  7. Für Cluster, auf denen Hive ausgeführt wird, können Sie die folgende Vorlage für die Authentifizierung verwenden. IAM

    {"jdbcURL": "" "iam_auth": {"endpoint": "jdbc:hive2://", #required "dns": "ip-xx-x-xxx-xxx.ec2.internal", #required "port": "10000", #required "cluster_id": "j-xxxxxxxxx", #required "iam_role": "arn:aws:iam::xxxxxxxx:role/xxxxxxxxxxxx", #optional "truststore_path": "/etc/alternatives/jre/lib/security/cacerts", #optional "truststore_password": "changeit" #optional }}
    Anmerkung

    Wenn Sie Ihre Daten importiert haben, wenden Sie Transformationen darauf an. Anschließend exportieren Sie die so transformierten Daten an einen bestimmten Speicherort. Wenn Sie ein Jupyter Notebook verwenden, um Ihre transformierten Daten nach Amazon S3 zu exportieren, müssen Sie den im vorangehenden Beispiel angegebenen Truststore-Pfad verwenden.

Ein Secrets Manager Manager-Geheimnis speichert den JDBC URL EMR Amazon-Cluster als Geheimnis. Die Verwendung eines Secrets ist sicherer als die direkte Eingabe Ihrer Anmeldeinformationen.

Gehen Sie wie folgt vor, um das JDBC URL als Geheimnis zu speichern.

Gehen Sie JDBC URL wie folgt vor, um das als Geheimnis zu speichern.

  1. Navigieren Sie zur AWS Management Console.

  2. Geben Sie im Suchfeld Secrets Manager an.

  3. Wählen Sie AWS Secrets Manager.

  4. Wählen Sie Store a new secret (Ein neues Secret speichern).

  5. Als Secret-Typ wählen Sie Anderer Secret-Typ aus.

  6. Geben Sie für Schlüssel/Wert-Paare jdbcURL als Schlüssel und a JDBC URL als Wert an.

    Das Format eines gültigen Codes JDBC URL hängt davon ab, ob Sie die Authentifizierung verwenden und ob Sie Hive oder Presto als Abfrage-Engine verwenden. Die folgende Liste zeigt die gültigen JBDC URL Formate für die verschiedenen möglichen Konfigurationen.

    • Hive, keine Authentifizierung – jdbc:hive2://emr-cluster-master-public-dns:10000/;

    • Hive, LDAP Authentifizierung — jdbc:hive2://emr-cluster-master-public-dns-name:10000/;AuthMech=3;UID=david;PWD=welcome123;

    • Bei SSL aktiviertem Hive hängt das JDBC URL Format davon ab, ob Sie eine Java-Keystore-Datei für die Konfiguration verwenden. TLS Die Java-Keystore-Datei hilft bei der Überprüfung der Identität des Master-Knotens des EMR Amazon-Clusters. Um eine Java-Keystore-Datei zu verwenden, generieren Sie sie auf einem EMR Cluster und laden Sie sie auf Data Wrangler hoch. Um eine Datei zu generieren, verwenden Sie den folgenden Befehl auf dem EMR Amazon-Cluster,keytool -genkey -alias hive -keyalg RSA -keysize 1024 -keystore hive.jks. Informationen zum Ausführen von Befehlen auf einem EMR Amazon-Cluster finden Sie unter Sichern des Zugriffs auf EMR Cluster mithilfe von AWS Systems Manager. Um eine Datei hochzuladen, wählen Sie links auf der Navigationsleiste der Data Wrangler-Benutzeroberfläche den Aufwärtspfeil.

      Die folgenden JDBC URL Formate sind für Hive mit SSL aktivierter Option gültig:

      • Ohne Java-Keystore-Datei – jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;AllowSelfSignedCerts=1;

      • Mit Java-Keystore-Datei – jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;SSLKeyStore=/home/sagemaker-user/data/Java-keystore-file-name;SSLKeyStorePwd=Java-keystore-file-passsword;

    • Presto, keine Authentifizierung — jdbc:presto://emr-cluster-master-public-dns:8889/;

    • Bei Presto mit SSL aktivierter LDAP Authentifizierung hängt das JDBC URL Format davon ab, ob Sie eine Java-Keystore-Datei für die Konfiguration verwenden. TLS Die Java-Keystore-Datei hilft bei der Überprüfung der Identität des Master-Knotens des EMR Amazon-Clusters. Um eine Java-Keystore-Datei zu verwenden, generieren Sie sie auf einem EMR Cluster und laden Sie sie auf Data Wrangler hoch. Um eine Datei hochzuladen, wählen Sie links auf der Navigationsleiste der Data Wrangler-Benutzeroberfläche den Aufwärtspfeil. Informationen zum Erstellen einer Java-Keystore-Datei für Presto finden Sie unter Java-Keystore-Datei für. TLS Informationen zum Ausführen von Befehlen auf einem EMR Amazon-Cluster finden Sie unter Sichern des Zugriffs auf EMR Cluster mithilfe von AWS Systems Manager.

      • Ohne Java-Keystore-Datei – jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;UID=user-name;PWD=password;AllowSelfSignedServerCert=1;AllowHostNameCNMismatch=1;

      • Mit Java-Keystore-Datei – jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;SSLTrustStorePath=/home/sagemaker-user/data/Java-keystore-file-name;SSLTrustStorePwd=Java-keystore-file-passsword;UID=user-name;PWD=password;

Während des Imports von Daten aus einem EMR Amazon-Cluster können Probleme auftreten. Informationen zur Fehlerbehebung finden Sie unter Behebung von Problemen mit Amazon EMR.

Daten aus Databricks importieren () JDBC

Sie können Databricks als Datenquelle für Ihren Amazon SageMaker Data Wrangler-Flow verwenden. Um einen Datensatz aus Databricks zu importieren, verwenden Sie die Importfunktion JDBC (Java Database Connectivity), um auf Ihre Databricks-Datenbank zuzugreifen. Nachdem Sie auf die Datenbank zugegriffen haben, geben Sie eine SQL Abfrage an, um die Daten abzurufen und zu importieren.

Wir gehen davon aus, dass Sie einen laufenden Databricks-Cluster haben und dass Sie Ihren JDBC Treiber entsprechend konfiguriert haben. Weitere Informationen finden Sie auf den folgenden Seiten mit der Dokumentation zu Databricks:

Data Wrangler speichert Ihre JDBC URL Daten. AWS Secrets Manager Sie müssen Ihrer Amazon SageMaker Studio IAM Classic-Ausführungsrolle Berechtigungen zur Verwendung von Secrets Manager erteilen. Gehen Sie wie folgt vor, um Berechtigungen zu erteilen.

Gehen Sie wie folgt vor, um Secrets Manager Berechtigungen zu erteilen.

  1. Melden Sie sich bei der an AWS Management Console und öffnen Sie die IAM Konsole unter https://console.aws.amazon.com/iam/.

  2. Wählen Sie Roles.

  3. Geben Sie in der Suchleiste die SageMaker Amazon-Ausführungsrolle an, die Amazon SageMaker Studio Classic verwendet.

  4. Wählen Sie die Rolle aus.

  5. Wählen Sie Add permissions (Berechtigungen hinzufügen) aus.

  6. Wählen Sie Inline-Richtlinie erstellen aus.

  7. Geben Sie für Service Secrets Manager an und wählen Sie ihn aus.

  8. Wählen Sie für Aktionen das Pfeilsymbol neben Berechtigungsverwaltung aus.

  9. Wählen Sie PutResourcePolicy.

  10. Wählen Sie für Ressourcen die Option Spezifisch aus.

  11. Wählen Sie das Kontrollkästchen neben Alle in diesem Konto aus.

  12. Wählen Sie Richtlinie prüfen.

  13. Geben Sie für Name einen Namen an.

  14. Wählen Sie Create Policy (Richtlinie erstellen) aus.

Sie können Partitionen verwenden, um Ihre Daten schneller zu importieren. Mit Partitionen kann Data Wrangler die Daten parallel verarbeiten. Standardmäßig verwendet Data Wrangler 2 Partitionen. In den meisten Anwendungsfällen bieten Ihnen 2 Partitionen nahezu optimale Datenverarbeitungsgeschwindigkeiten.

Wenn Sie mehr als 2 Partitionen angeben möchten, können Sie auch eine Spalte angeben, um die Daten zu partitionieren. Die Werte in der Spalte müssen vom Typ „Numerisch“ oder „Datum“ sein.

Wir empfehlen, Partitionen nur dann zu verwenden, wenn Sie die Struktur der Daten und deren Verarbeitung kennen.

Sie können entweder den gesamten Datensatz importieren oder eine Stichprobe davon. Für eine Databricks-Datenbank werden die folgenden Optionen für die Probenahme angeboten:

  • Keine – Importiert den gesamten Datensatz.

  • Erstes K – Stichprobe der ersten K Zeilen des Datensatzes, wobei K eine von Ihnen angegebene Ganzzahl ist.

  • Randomisiert – Nimmt eine zufällige Stichprobe mit einer von Ihnen angegebenen Größe.

  • Stratifiziert – Entnimmt eine stratifizierte zufällige Stichprobe. Eine stratifizierte Stichprobe behält das Verhältnis der Werte in einer Spalte bei.

Gehen Sie wie folgt vor, um Ihre Daten aus einer Databricks-Datenbank zu importieren.

Gehen Sie wie folgt vor, um Daten aus Databricks zu importieren.

  1. Melden Sie sich bei Amazon SageMaker Console an.

  2. Wählen Sie Studio.

  3. Wählen Sie App starten.

  4. Wählen Sie von der Auswahlliste Studio aus.

  5. Wählen Sie in Ihrem Data Wrangler-Ablauf auf der Registerkarte Daten importieren die Option Databricks aus.

  6. Geben Sie die folgenden Felder an:

    • Datensatzname – Ein Name, den Sie für den Datensatz in Ihrem Data Wrangler-Ablauf verwenden möchten.

    • Treiber – com.simba.spark.jdbc.Driver.

    • JDBCURL— Die URL der Databricks-Datenbank. Die URL Formatierung kann zwischen den Databricks-Instanzen variieren. Informationen darüber, wie Sie die darin enthaltenen Parameter finden URL und angeben können, finden Sie unter JDBCKonfiguration und Verbindungsparameter. Im Folgenden finden Sie ein Beispiel dafür, wie a formatiert werden URL kann: jdbc:spark://aws-sagemaker-datawrangler.cloud.databricks.com:443/default; =http; ssl=1; =sql/protocolv1/o/3122619508517275/0909-200301-cut318; =3; = transportMode httpPath AuthMech UIDtoken;PWD=personal-access-token.

      Anmerkung

      JDBCURLSie können ein Geheimnis angeben JDBCURL, das das enthält, anstatt es selbst anzugeben. ARN Das Secret muss ein Schlüssel-Wert-Paar mit dem folgenden Format enthalten: jdbcURL:JDBC-URL. Weitere Informationen finden Sie unter Was ist der Secrets Manager?.

  7. Geben Sie eine SQL SELECT Anweisung an.

    Anmerkung

    Data Wrangler unterstützt keine Common Table Expressions (CTE) oder temporäre Tabellen innerhalb einer Abfrage.

  8. Wählen Sie für Probenahme eine Methode zur Probenahme aus.

  9. Wählen Sie Ausführen aus.

  10. (Optional) Wählen Sie für den den Gang PREVIEW, um die Partitionseinstellungen zu öffnen.

    1. Geben Sie die Anzahl der Partitionen an. Sie können nach Spalten partitionieren, wenn Sie die Anzahl der Partitionen angeben:

      • Anzahl der Partitionen eingeben – Geben Sie einen Wert an, der größer als 2 ist.

      • (Optional) Partitionieren nach Spalten – Geben Sie die folgenden Felder an. Sie können nur dann nach einer Spalte partitionieren, wenn Sie einen Wert für Anzahl der Partitionen eingeben angegeben haben.

        • Spalte auswählen – Wählen Sie die Spalte aus, die Sie für die Datenpartition verwenden. Der Datentyp der Spalte muss ein numerisches oder ein Datumsformat haben.

        • Obergrenze – Aus den Werten in der Spalte, die Sie angegeben haben, ist die Obergrenze derjenige Wert, den Sie in der Partition verwenden. Der von Ihnen angegebene Wert ändert nichts an den Daten, die Sie importieren. Er wirkt sich nur auf die Geschwindigkeit des Imports aus. Um eine optimale Leistung zu erzielen, geben Sie eine Obergrenze an, die nahe am Maximum für die Spalte liegt.

        • Untergrenze – Aus den Werten in der Spalte, die Sie angegeben haben, ist die Untergrenze der Wert, den Sie in der Partition verwenden. Der von Ihnen angegebene Wert ändert nichts an den Daten, die Sie importieren. Er wirkt sich nur auf die Geschwindigkeit des Imports aus. Um eine optimale Leistung zu erzielen, geben Sie eine Untergrenze an, die nahe am Minimum für die Spalte liegt.

  11. Wählen Sie Importieren aus.

Daten aus Salesforce Data Cloud importieren

Sie können Salesforce Data Cloud als Datenquelle in Amazon SageMaker Data Wrangler verwenden, um die Daten in Ihrer Salesforce Data Cloud für maschinelles Lernen vorzubereiten.

Mit Salesforce Data Cloud als Datenquelle in Data Wrangler können Sie schnell eine Verbindung zu Ihren Salesforce-Daten herstellen, ohne eine einzige Zeile Code schreiben zu müssen. Sie können Ihre Salesforce-Daten mit Daten aus jeder anderen Datenquelle in Data Wrangler zusammenführen.

Sobald Sie eine Verbindung mit der Data Cloud hergestellt haben, haben Sie folgende Optionen:

  • Ihre Daten mit integrierten Visualisierungen visualisieren

  • Die Daten verstehen und potenzielle Fehler und Extremwerte identifizieren

  • Die Daten mit mehr als 300 integrierten Transformationen transformieren

  • Die so transformierten Daten exportieren

Administrator-Einrichtung

Wichtig

Bevor Sie beginnen, stellen Sie sicher, dass Ihre Benutzer Amazon SageMaker Studio Classic Version 1.3.0 oder höher ausführen. Informationen zum Überprüfen und Aktualisieren der Version von Studio Classic finden Sie unterVorbereiten von ML-Daten mit Amazon SageMaker Data Wrangler.

Wenn Sie den Zugriff auf Salesforce Data Cloud einrichten, müssen Sie die folgenden Aufgaben ausführen:

  • Ihre Salesforce-Domain abrufenURL. Salesforce bezeichnet die Domain auch URL als die Ihrer OrganisationURL.

  • OAuthAnmeldeinformationen von Salesforce abrufen.

  • Abrufen der Autorisierung URL und des Tokens URL für Ihre Salesforce-Domain.

  • Mit der OAuth Konfiguration ein AWS Secrets Manager Geheimnis erstellen.

  • Erstellen einer Lebenszykluskonfiguration, die Data Wrangler verwendet, um die Anmeldeinformationen aus dem Secret zu lesen.

  • Data Wrangler die Erlaubnis erteilen, das Secret zu lesen.

Nachdem Sie die vorherigen Aufgaben ausgeführt haben, können sich Ihre Benutzer mit Hilfe von bei der Salesforce Data Cloud anmeldenOAuth.

Anmerkung

Ihre Benutzer stoßen ggf. auf Probleme, wenn Sie alles eingerichtet haben. Informationen zur Fehlerbehebung finden Sie unter Fehlerbehebung mit Salesforce.

Gehen Sie wie folgt vor, um die Domain abzurufenURL.

  1. Navigieren Sie zur Salesforce-Anmeldeseite.

  2. Geben Sie für Schnellsuche Meine Domain an.

  3. Kopieren Sie den Wert von Current My Domain URL in eine Textdatei.

  4. Am Anfang von hinzufügen https://URL.

Nachdem Sie die Salesforce-Domain erhalten habenURL, können Sie das folgende Verfahren verwenden, um die Anmeldeinformationen von Salesforce abzurufen und Data Wrangler den Zugriff auf Ihre Salesforce-Daten zu ermöglichen.

Gehen Sie wie folgt vor, um die Anmeldeinformationen von Salesforce abzurufen und Zugriff auf Data Wrangler zu gewähren.

  1. Navigieren Sie zu Ihrer Salesforce-Domain URL und melden Sie sich bei Ihrem Konto an.

  2. Wählen Sie das Zahnradsymbol aus.

  3. Geben Sie in der Suchleiste, die nun erscheintn App Manager an.

  4. Wählen Sie Neue verbundene App aus.

  5. Geben Sie die folgenden Felder an:

    • Name der verbundenen App – Sie können einen beliebigen Namen angeben. Wir empfehlen jedoch, einen Namen zu wählen, der Data Wrangler enthält. Sie können z. B. Salesforce Data Cloud Data Wrangler-Integration angeben.

    • APIname — Verwenden Sie den Standardwert.

    • Kontakt-E-Mail – Geben Sie Ihre E-Mail-Adresse an.

    • Wählen Sie unter der APIÜberschrift (OAuthEinstellungen aktivieren) das Kontrollkästchen aus, um die OAuth Einstellungen zu aktivieren.

    • URLGeben Sie für Callback Amazon SageMaker Studio Classic URL an. Um das URL für Studio Classic abzurufen, greifen Sie von der darauf zu AWS Management Console und kopieren Sie dasURL.

  6. Verschieben Sie unter Ausgewählte OAuth Bereiche Folgendes aus den verfügbaren Bereichen in Ausgewählte OAuth OAuth Bereiche:

    • Benutzerdaten verwalten über () APIs api

    • Anfragen jederzeit ausführen (refresh_token, offline_access)

    • Führen Sie ANSI SQL Abfragen zu Salesforce Data Cloud-Daten durch (cdp_query_api)

    • Profildaten der Salesforce Customer Data Platform verwalten (cdp_profile_api)

  7. Wählen Sie Save (Speichern) aus. Wenn Sie Ihre Änderungen gespeichert haben, öffnet Salesforce eine neue Seite.

  8. Klicken Sie auf Continue

  9. Navigieren Sie zu Verbraucherschlüssel und Secret.

  10. Wählen Sie Verbraucherdaten verwalten aus. Salesforce leitet Sie auf eine neue Seite weiter, auf der Sie ggf. die Zwei-Faktor-Authentifizierung passieren müssen.

  11. Wichtig

    Kopieren Sie den Verbraucherschlüssel und das Verbraucher-Secret in einen Texteditor. Diese Informationen brauchen Sie, um die Verbindung zwischen der Data Cloud und Data Wrangler herzustellen.

  12. Navigieren Sie zurück zu Verbundene Apps verwalten.

  13. Navigieren Sie zum Namen der verbundenen App und zum Namen Ihrer Anwendung.

  14. Wählen Sie Manage (Verwalten).

    1. Wählen Sie Richtlinien bearbeiten aus.

    2. Ändern Sie IP-Lockerung in IP-Einschränkungen lockern.

    3. Wählen Sie Speichern aus.

Wenn Sie den Zugriff auf Ihre Salesforce Data Cloud gewährt haben, müssen Sie noch Ihren Benutzern Berechtigungen erteilen. Gehen Sie wie folgt vor, um ihnen Berechtigungen zu erteilen.

Gehen Sie wie folgt vor, um Ihren Benutzern Berechtigungen zu erteilen.

  1. Navigieren Sie zur Setup-Homepage.

  2. Suchen Sie in der linken Navigationsleiste nach Benutzern und wählen Sie den Menüpunkt Benutzer aus.

  3. Wählen Sie das Hyperlink mit Ihrem Benutzernamen.

  4. Navigieren Sie zu Zuweisungen für den Berechtigungssatz.

  5. Wählen Sie Zuweisungen bearbeiten.

  6. Fügen Sie die folgenden Berechtigungen hinzu:

    • Administrator der Kundendatenplattform

    • Data-Aware-Spezialist für die Kundendatenplattform

  7. Wählen Sie Save (Speichern) aus.

Nachdem Sie die Informationen für Ihre Salesforce-Domäne erhalten haben, müssen Sie die Autorisierung URL und das Token URL für das AWS Secrets Manager Secret erhalten, das Sie erstellen.

Gehen Sie wie folgt vor, um die Autorisierung URL und das Token abzurufenURL.

Um die Autorisierung URL und das Token zu erhalten URL
  1. Navigieren Sie zu Ihrer Salesforce-DomainURL.

  2. Verwenden Sie eine der folgenden Methoden, um die zu erhaltenURLs. Wenn Sie eine Linux-Distribution verwenden und curl und jq installiert haben, empfehlen wir, die Methode zu verwenden, die nur unter Linux funktioniert.

    • (Nur Linux) Geben Sie in Ihrem Terminal den folgenden Befehl an.

      curl salesforce-domain-URL/.well-known/openid-configuration | \ jq '. | { authorization_url: .authorization_endpoint, token_url: .token_endpoint }' | \ jq '. += { identity_provider: "SALESFORCE", client_id: "example-client-id", client_secret: "example-client-secret" }'
      1. Navigieren Sie zu example-org-URL/.well-known/openid-configuration in Ihrem Browser.

      2. Kopieren Sie authorization_endpoint und token_endpoint in einen Texteditor.

      3. Erstellen Sie das folgende JSON Objekt:

        { "identity_provider": "SALESFORCE", "authorization_url": "example-authorization-endpoint", "token_url": "example-token-endpoint", "client_id": "example-consumer-key", "client_secret": "example-consumer-secret" }

Nachdem Sie das OAuth Konfigurationsobjekt erstellt haben, können Sie ein AWS Secrets Manager Geheimnis erstellen, in dem es gespeichert wird. Gehen Sie wie folgt vor, um das Secret zu erstellen.

Gehen Sie wie folgt vor, um ein Secret zu erstellen.

  1. Navigieren Sie zur AWS Secrets Manager -Konsole.

  2. Wählen Sie Secret speichern aus.

  3. Wählen Sie Anderer Geheimnistyp aus.

  4. Wählen Sie unter Schlüssel/Wert-Paare die Option Klartext aus.

  5. Ersetzen Sie das leere Feld JSON durch die folgenden Konfigurationseinstellungen.

    { "identity_provider": "SALESFORCE", "authorization_url": "example-authorization-endpoint", "token_url": "example-token-endpoint", "client_id": "example-consumer-key", "client_secret": "example-consumer-secret" }
  6. Wählen Sie Weiter.

  7. Geben Sie unter Name des Secrets den Namen des Secrets an.

  8. Wählen Sie unter Tags die Option Hinzufügen aus.

    1. Geben Sie als Schlüssel sagemaker:partner an. Wir empfehlen, für Value einen Wert anzugeben, der für Ihren Anwendungsfall nützlich sein könnte. Sie können jedoch eine beliebige Angabe machen.

    Wichtig

    Sie müssen den Schlüssel erstellen. Sie können Ihre Daten nicht aus Salesforce importieren, wenn Sie sie nicht erstellen.

  9. Wählen Sie Weiter.

  10. Wählen Sie Store (Speichern) aus.

  11. Wählen Sie das Secret aus, das Sie erstellt haben.

  12. Notieren Sie sich die folgenden Felder:

    • Die Amazon-Ressourcennummer (ARN) des Geheimnisses

    • Den Namen des Secrets

Wenn Sie das Geheimnis erstellt haben, müssen Sie Berechtigungen hinzufügen, damit Data Wrangler das Secret lesen kann. Gehen Sie wie folgt vor, um Berechtigungen hinzuzufügen.

Gehen Sie wie folgt vor, um Leseberechtigungen für Data Wrangler hinzuzufügen.

  1. Navigieren Sie zur SageMaker Amazon-Konsole.

  2. Wählen Sie Domains aus.

  3. Wählen Sie die Domain aus, die Sie für den Zugriff auf Data Wrangler verwenden.

  4. Wählen Sie Ihr Benutzerprofil aus.

  5. Suchen Sie unter Details nach der Ausführungsrolle. ARNEs hat das folgende Format:arn:aws:iam::111122223333:role/example-role. Notieren Sie sich die SageMaker Ausführungsrolle. Innerhalb derARN, es ist alles danachrole/.

  6. Navigieren Sie zur IAM-Konsole.

  7. Geben Sie in der IAMSuchleiste den Namen der SageMaker Ausführungsrolle an.

  8. Wählen Sie die Rolle aus.

  9. Wählen Sie Add permissions (Berechtigungen hinzufügen) aus.

  10. Wählen Sie Inline-Richtlinie erstellen aus.

  11. Wählen Sie die JSON Registerkarte.

  12. Geben Sie im Editor die folgende Richtlinie an.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "secretsmanager:GetSecretValue", "secretsmanager:PutSecretValue" ], "Resource": "arn:aws:secretsmanager:*:*:secret:*", "Condition": { "ForAnyValue:StringLike": { "aws:ResourceTag/sagemaker:partner": "*" } } }, { "Effect": "Allow", "Action": [ "secretsmanager:UpdateSecret" ], "Resource": "arn:aws:secretsmanager:*:*:secret:AmazonSageMaker-*" } ] }
  13. Wählen Sie Review policy (Richtlinie überprüfen) aus.

  14. Geben Sie für Name einen Namen an.

  15. Wählen Sie Create Policy (Richtlinie erstellen) aus.

Nachdem Sie Data Wrangler-Berechtigungen zum Lesen des Secrets erteilt haben, müssen Sie Ihrem Amazon SageMaker Studio Classic-Benutzerprofil eine Lifecycle-Konfiguration hinzufügen, die Ihr Secrets Manager-Geheimnis verwendet.

Gehen Sie wie folgt vor, um eine Lebenszykluskonfiguration zu erstellen und sie dem Studio Classic-Profil hinzuzufügen.

Gehen Sie wie folgt vor, um eine Lebenszykluskonfiguration zu erstellen und sie dem Studio Classic-Profil hinzuzufügen.

  1. Navigieren Sie zur SageMaker Amazon-Konsole.

  2. Wählen Sie Domains aus.

  3. Wählen Sie die Domain aus, die Sie für den Zugriff auf Data Wrangler verwenden.

  4. Wählen Sie Ihr Benutzerprofil aus.

  5. Wenn Sie die folgenden Anwendungen sehen, löschen Sie sie:

    • KernelGateway

    • JupyterKernel

    Anmerkung

    Durch das Löschen der Anwendungen wird Studio Classic aktualisiert. Es kann eine Weile dauern, bis die Updates erfolgen.

  6. Während Sie auf die Updates warten, wählen Sie Lebenszykluskonfigurationen aus.

  7. Stellen Sie sicher, dass auf der Seite, auf der Sie sich befinden, Studio Classic Lifecycle-Konfigurationen steht.

  8. Wählen Sie Create configuration (Konfiguration erstellen).

  9. Achten Sie darauf, dass die Jupyter-Server-App ausgewählt wurde.

  10. Wählen Sie Weiter.

  11. Geben Sie für Name einen Namen für die Konfiguration an.

  12. Geben Sie für Skripte das folgende Skript an:

    #!/bin/bash set -eux cat > ~/.sfgenie_identity_provider_oauth_config <<EOL { "secret_arn": "secrets-arn-containing-salesforce-credentials" } EOL
  13. Wählen Sie Absenden aus.

  14. Wählen Sie in der linken Navigationsleiste Domains aus.

  15. Wählen Sie Ihre Domain aus.

  16. Wählen Sie Environment (Umgebung) aus.

  17. Wählen Sie unter Lebenszykluskonfigurationen für persönliche Studio Classic-Apps die Option Anhängen aus.

  18. Wählen Sie Vorhandene Konfiguration aus.

  19. Wählen Sie unter Studio Classic Lifecycle-Konfigurationen die von Ihnen erstellte Lebenszykluskonfiguration aus.

  20. Wählen Sie An Domain anhängen aus.

  21. Aktivieren Sie das Kontrollkästchen neben der Lebenszykluskonfiguration, die Sie angehängt haben.

  22. Wählen Sie Als Standard festlegen aus.

Beim Einrichten Ihrer Lebenszykluskonfiguration können Probleme auftreten. Informationen zum Debuggen finden Sie unter Konfigurationen für den Debug-Lebenszyklus.

Leitfaden für Datenwissenschaftler

Gehen Sie wie folgt vor, um Salesforce Data Cloud mit Data Wrangler zu verbinden und von dort aus auf Ihre Daten zuzugreifen.

Wichtig

Ihr Administrator muss die Informationen in den vorangehenden Abschnitten verwenden, um Salesforce Data Cloud einzurichten. Wenn Probleme auftreten, wenden Sie sich an Ihren Administrator, um Hilfe bei der Fehlerbehebung zu erhalten.

Gehen Sie wie folgt vor, um Studio Classic zu öffnen und die Version zu überprüfen.

  1. Gehen Sie wie unter beschrieben vorVoraussetzungen, um über Amazon SageMaker Studio Classic auf Data Wrangler zuzugreifen.

  2. Wählen Sie neben dem Benutzer, den Sie zum Starten von Studio Classic verwenden möchten, die Option App starten aus.

  3. Wählen Sie Studio.

Um in Data Wrangler einen Datensatz mit Daten aus der Salesforce Data Cloud zu erstellen
  1. Melden Sie sich bei Amazon SageMaker Console an.

  2. Wählen Sie Studio.

  3. Wählen Sie App starten.

  4. Wählen Sie in der Auswahlliste Studio aus.

  5. Wählen Sie das Symbol Startseite aus.

  6. Wählen Sie Datenaus.

  7. Wählen Sie Data Wrangler.

  8. Wählen Sie Daten importieren aus.

  9. Wählen Sie unter Verfügbar die Option Salesforce Data Cloud aus.

  10. Geben Sie unter Name der Verbindung einen Namen für Ihre Verbindung zur Salesforce Data Cloud an.

  11. Geben Sie für Org URL die Organisation URL in Ihrem Salesforce-Konto an. Sie können sie URL von Ihren Administratoren erhalten.

  12. Wählen Sie Connect aus.

  13. Geben Sie Ihre Anmeldeinformationen an, um sich bei Salesforce anzumelden.

Sie können mit der Erstellung eines Datensatzes mithilfe von Daten aus der Salesforce Data Cloud beginnen, sobald Sie eine Verbindung hergestellt haben.

Sobald Sie eine Tabelle ausgewählt haben, können Sie Abfragen schreiben und ausführen. Die Ausgabe zu Ihrer Abfrage wird unter Abfrageergebnisse angezeigt.

Wenn Sie sich für die Ausgabe zu Ihrer Abfrage entschieden haben, können Sie nun die Ausgabe zu Ihrer Abfrage in einen Data Wrangler-Ablauf importieren, um Datentransformationen durchzuführen.

Wenn Sie einen Datensatz erstellt haben, navigieren Sie zu dem Bildschirm Datenablauf, um mit der Transformation Ihrer Daten zu beginnen.

Importieren von Daten aus Snowflake

Sie können Snowflake als Datenquelle in Data Wrangler verwenden, um SageMaker Daten in Snowflake für maschinelles Lernen vorzubereiten.

Mit Snowflake als Datenquelle in Data Wrangler können Sie schnell eine Verbindung zu Snowflake herstellen, ohne eine einzige Zeile Code schreiben zu müssen. In Snowflake können Sie Ihre Daten mit Daten aus jeder anderen Datenquelle in Data Wrangler zusammenführen.

Sobald die Verbindung hergestellt ist, können Sie in Snowflake gespeicherte Daten interaktiv abfragen, mehr als 300 vorkonfigurierte Transformationen auf die Daten anwenden, Daten verstehen und potenzielle Fehler und Extremwerte mit einer Reihe robuster vorkonfigurierter Visualisierungsvorlagen identifizieren, schnell Inkonsistenzen in Ihrem Datenvorbereitungsworkflow erkennen und Probleme diagnostizieren, bevor Modelle in der Produktion eingesetzt werden. Schließlich können Sie Ihren Datenvorbereitungs-Workflow nach Amazon S3 exportieren, um ihn mit anderen SageMaker Funktionen wie Amazon SageMaker Autopilot, Amazon SageMaker Feature Store und Amazon SageMaker Pipelines zu verwenden.

Sie können die Ausgabe Ihrer Abfragen mit einem von Ihnen erstellten AWS Key Management Service Schlüssel verschlüsseln. Weitere Informationen zu finden Sie AWS KMS unter AWS Key Management Service.

POST EDIT. ADDED PROOFREAD. ADDED PP1

Wichtig

Weitere Informationen zur detaillierten Zugriffskontrolle und zu bewährten Methoden finden Sie unter Security Access Control.

Dieser Abschnitt richtet sich an Snowflake-Administratoren, die den Zugriff auf Snowflake von Data Wrangler aus einrichten. SageMaker

Wichtig

Sie sind für die Verwaltung und Überwachung der Zugriffskontrolle in Snowflake verantwortlich. Data Wrangler fügt keine zusätzliche Zugriffskontrollebene für Snowflake hinzu.

Zur Zugriffskontrolle gehören u.a.:

  • Die Daten, auf die ein Benutzer zugreift

  • (Optional) Die Speicherintegration, mit deren Hilfe Snowflake Abfrageergebnisse in einen Amazon-S3-Bucket schreiben kann

  • Die Abfragen, die ein Benutzer ausführen kann

(Optional) Snowflake-Datenimportberechtigungen konfigurieren

Standardmäßig fragt Data Wrangler die Daten in Snowflake ab, ohne an einem Amazon S3-Standort eine Kopie davon zu erstellen. Verwenden Sie die folgenden Informationen, wenn Sie eine Speicherintegration in Snowflake konfigurieren. Ihre Benutzer können eine Speicherintegration verwenden, um ihre Abfrageergebnisse an einem Amazon S3-Standort zu speichern.

Ihre Benutzer haben ggf. unterschiedliche Zugriffsebenen für sensible Daten. Für eine optimale Sicherheit der Daten sollten Sie für jeden Benutzer eine eigene Speicherintegration anlegen. Für jede Speicherintegration sollte eine eigene Datenverwaltungsrichtlinie gelten.

Diese Funktion steht in den Opt-in-Regionen derzeit nicht zur Verfügung.

Snowflake benötigt die folgenden Berechtigungen für einen S3-Bucket und ein Verzeichnis, um auf Dateien im Verzeichnis zugreifen zu können:

  • s3:GetObject

  • s3:GetObjectVersion

  • s3:ListBucket

  • s3:ListObjects

  • s3:GetBucketLocation

Erstellen Sie eine Richtlinie IAM

Sie müssen eine IAM Richtlinie erstellen, um Zugriffsberechtigungen für Snowflake zum Laden und Entladen von Daten aus einem Amazon S3 S3-Bucket zu konfigurieren.

Im Folgenden finden Sie das JSON Richtliniendokument, das Sie zur Erstellung der Richtlinie verwenden:

# Example policy for S3 write access # This needs to be updated { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:GetObjectVersion", "s3:DeleteObject", "s3:DeleteObjectVersion" ], "Resource": "arn:aws:s3:::bucket/prefix/*" }, { "Effect": "Allow", "Action": [ "s3:ListBucket" ], "Resource": "arn:aws:s3:::bucket/", "Condition": { "StringLike": { "s3:prefix": ["prefix/*"] } } } ] }

Informationen und Verfahren zum Erstellen von Richtlinien mit Richtliniendokumenten finden Sie unter IAMRichtlinien erstellen.

Eine Dokumentation, die einen Überblick über die Verwendung von IAM Berechtigungen mit Snowflake bietet, finden Sie in den folgenden Ressourcen:

Um der Snowflake-Rolle des Datenwissenschaftlers die Nutzungsberechtigung für die Speicherintegration zu erteilen, müssen Sie GRANT USAGE ON INTEGRATION integration_name TO snowflake_role; ausführen.

  • integration_name ist der Name Ihrer Speicherintegration.

  • snowflake_role ist der Name der Snowflake-Standardrolle, die dem Datenwissenschaftler als Benutzer zugewiesen wurde.

Snowflake Access OAuth einrichten

Anstatt Ihre Benutzer ihre Anmeldeinformationen direkt in Data Wrangler eingeben zu lassen, können Sie sie für den Zugriff auf Snowflake einen Identitätsanbieter verwenden lassen. Im Folgenden finden Sie Links zur Snowflake-Dokumentation für die von Data Wrangler unterstützten Identitätsanbieter.

Verwenden Sie die Dokumentation unter den obigen Links, um den Zugang zu Ihrem Identitätsanbieter einzurichten. Mit Hilfe der in diesem Abschnitt beschriebenen Informationen und Verfahren verstehen Sie leichter, wie Sie die Dokumentation für den Zugriff auf Snowflake in Data Wrangler richtig verwenden.

Ihr Identitätsanbieter muss Data Wrangler als Anwendung erkennen. Gehen Sie wie folgt vor, um Data Wrangler als Anwendung beim Identitätsanbieter zu registrieren:

  1. Wählen Sie die Konfiguration aus, die den Registrierungsprozess für Data Wrangler als Anwendung startet.

  2. Gewähren Sie den Benutzern innerhalb des Identitätsanbieters Zugriff auf Data Wrangler.

  3. Aktivieren Sie die OAuth Client-Authentifizierung, indem Sie die Client-Anmeldeinformationen geheim speichern. AWS Secrets Manager

  4. Geben Sie eine Umleitung URL im folgenden Format an: https://domain-ID.studio.AWS-Region.sagemaker.aws/jupyter/default/lab

    Wichtig

    Sie geben die SageMaker Amazon-Domain-ID an AWS-Region , die Sie zum Ausführen von Data Wrangler verwenden.

    Wichtig

    Sie müssen URL für jede SageMaker Amazon-Domain und den Ort, AWS-Region an dem Sie Data Wrangler ausführen, eine registrieren. Benutzer einer Domain, für AWS-Region die keine Weiterleitung URLs eingerichtet ist, können sich nicht beim Identitätsanbieter authentifizieren, um auf die Snowflake-Verbindung zuzugreifen.

  5. Vergewissern Sie sich, dass die Gewährungstypen für den Berechtigungscode und das Refresh-Token für die Anwendung Data Wrangler zulässig sind.

Innerhalb Ihres Identitätsanbieters müssen Sie einen Server einrichten, der OAuth Token auf Benutzerebene an Data Wrangler sendet. Der Server sendet die Token mit Snowflake als Zielgruppe.

Snowflake verwendet das Konzept von Rollen, bei denen es sich um unterschiedliche Rollen handelt, in denen die IAM verwendeten Rollen verwendet werden. AWS Sie müssen den Identitätsanbieter so konfigurieren, dass er eine beliebige Rolle verwendet, um die dem Snowflake-Konto zugeordnete Standardrolle zu verwenden. Wenn ein Benutzer z. B. systems administrator als Standardrolle in seinem Snowflake-Profil hat, wird für die Verbindung von Data Wrangler zu Snowflake systems administrator als Rolle verwendet.

Gehen Sie wie folgt vor, um den Server einzurichten.

Gehen Sie wie folgt vor, um den Server einzurichten. Sie arbeiten für alle außer dem letzten Schritte in Snowflake.

  1. Beginnen Sie mit der Einrichtung des Servers oder. API

  2. Konfigurieren Sie den Autorisierungsserver so, dass er die Gewährungstypen Autorisierungscode und Aktualisierungstoken verwendet.

  3. Geben Sie die Lebensdauer des Zugriffstokens an.

  4. Legen Sie die Leerlaufzeitüberschreitung für das Aktualisierungstoken fest. Die Leerlaufzeitüberschreitung ist die Zeitdauer, nach der das Aktualisierungstoken abläuft, wenn es nicht verwendet wird.

    Anmerkung

    Wenn Sie Jobs in Data Wrangler planen, empfehlen wir, die Leerlaufzeitüberschreitung länger als die Häufigkeit des Verarbeitungsauftrags festzulegen. Andernfalls könnten manche Verarbeitungsaufträge fehlschlagen, weil das Aktualisierungstoken abgelaufen ist, bevor der Auftrag ausgeführt werden konnte. Wenn das Aktualisierungstoken abläuft, muss sich der Benutzer erneut authentifizieren, indem er auf die Verbindung zugreift, die er über Data Wrangler zu Snowflake hergestellt hat.

  5. Geben Sie session:role-any als neuen Bereich an.

    Anmerkung

    Kopieren Sie für Azure AD die eindeutige Kennung für den Bereich. Data Wrangler verlangt von Ihnen, dass Sie ihm die Kennung zur Verfügung stellen.

  6. Wichtig

    Aktivieren Sie in der externen OAuth Sicherheitsintegration für Snowflake. external_oauth_any_role_mode

Wichtig

Data Wrangler unterstützt keine rotierenden Aktualisierungstoken. Die Verwendung rotierender Aktualisierungstoken kann dazu führen, dass der Zugriff fehlschlägt oder der Benutzer sich häufig anmelden muss.

Wichtig

Wenn der Aktualisierungstoken abläuft, müssen sich Ihre Benutzer erneut authentifizieren, indem sie auf die Verbindung zugreifen, die sie über Data Wrangler zu Snowflake hergestellt haben.

Nachdem Sie den OAuth Anbieter eingerichtet haben, stellen Sie Data Wrangler die Informationen zur Verfügung, die für die Verbindung mit dem Anbieter erforderlich sind. Sie können die Dokumentation Ihres Identitätsanbieters verwenden, um Werte für die folgenden Felder abzurufen:

  • Token URL — Das Token, das URL der Identity Provider an Data Wrangler sendet.

  • Autorisierung URL — Der URL des Autorisierungsservers des Identity Providers.

  • Client-ID – Die ID des Identitätsanbieters.

  • Geheimer Client-Schlüssel — Das Geheimnis, das nur der Autorisierungsserver API erkennt.

  • (Nur Azure AD) Die OAuth Bereichsanmeldedaten, die Sie kopiert haben.

Sie speichern die Felder und Werte in einem AWS Secrets Manager Geheimnis und fügen es der Amazon SageMaker Studio Classic-Lebenszykluskonfiguration hinzu, die Sie für Data Wrangler verwenden. Eine Lebenszykluskonfiguration ist ein Shell-Skript. Verwenden Sie es, um Data Wrangler den Amazon-Ressourcennamen (ARN) des Geheimnisses zugänglich zu machen. Informationen zum Erstellen von Geheimnissen finden Sie unter Hartcodierte Geheimnisse verschieben nach. AWS Secrets Manager Informationen zur Verwendung von Lebenszykluskonfigurationen in Studio Classic finden Sie unterVerwenden Sie Lebenszykluskonfigurationen, um Studio Classic anzupassen.

Wichtig

Bevor Sie ein Secrets Manager-Geheimnis erstellen, stellen Sie sicher, dass die SageMaker Ausführungsrolle, die Sie für Amazon SageMaker Studio Classic verwenden, berechtigt ist, Secrets in Secrets Manager zu erstellen und zu aktualisieren. Weitere Informationen zum Hinzufügen von Berechtigungen finden Sie unter Beispiel: Berechtigung zum Erstellen von Secrets.

Für Okta und Ping Federate ist das folgende das Format des Secrets:

{ "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token", "client_id":"example-client-id", "client_secret":"example-client-secret", "identity_provider":"OKTA"|"PING_FEDERATE", "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize" }

Für Azure AD ist das folgende Format für das Secret vorgesehen:

{ "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token", "client_id":"example-client-id", "client_secret":"example-client-secret", "identity_provider":"AZURE_AD", "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize", "datasource_oauth_scope":"api://appuri/session:role-any)" }

Sie müssen über eine Lebenszykluskonfiguration verfügen, die das Secrets-Manager-Secret verwendet, das Sie erstellt haben. Sie können entweder die Lebenszykluskonfiguration erstellen oder eine bereits erstellte ändern. Die Konfiguration muss das folgende Skript verwenden.

#!/bin/bash set -eux ## Script Body cat > ~/.snowflake_identity_provider_oauth_config <<EOL { "secret_arn": "example-secret-arn" } EOL

Informationen zur Einrichtung von Lebenszykluskonfigurationen finden Sie unter Erstellen und Zuordnen einer Lebenszykluskonfiguration. Gehen Sie beim Einrichten wie folgt vor:

  • Stellen Sie den Anwendungstyp der Konfiguration auf Jupyter Server ein.

  • Hängen Sie die Konfiguration an die SageMaker Amazon-Domain an, die Ihre Benutzer hat.

  • Lassen Sie die Konfiguration standardmäßig ausführen. Sie muss jedes Mal ausgeführt werden, wenn sich ein Benutzer bei Studio Classic anmeldet. Andernfalls sind die in der Konfiguration gespeicherten Anmeldeinformationen für Ihre Benutzer nicht verfügbar, wenn sie Data Wrangler verwenden.

  • Die Lebenszykluskonfiguration erstellt eine Datei mit dem Namen snowflake_identity_provider_oauth_config im Home-Ordner des Benutzers. Die Datei enthält das Secrets-Manager-Secret. Vergewissern Sie sich, dass es sich bei jeder Initialisierung der Jupyter Server-Instance im Home-Ordner des Benutzers befindet.

Private Konnektivität zwischen Data Wrangler und Snowflake über AWS PrivateLink

In diesem Abschnitt wird erklärt, wie Sie AWS PrivateLink eine private Verbindung zwischen Data Wrangler und Snowflake herstellen können. Die einzelnen Schritte werden in den folgenden Abschnitten erläutert.

Erstellen Sie ein VPC

Wenn Sie noch kein VPC Setup haben, folgen Sie den VPC Anweisungen Neues erstellen, um eines zu erstellen.

Sobald Sie eine Auswahl getroffen haben, die VPC Sie für den Aufbau einer privaten Verbindung verwenden möchten, geben Sie Ihrem Snowflake-Administrator zur Aktivierung die folgenden Anmeldeinformationen an: AWS PrivateLink

  • VPCID

  • AWS Konto-ID

  • Ihr entsprechendes Konto, mit dem URL Sie auf Snowflake zugreifen

Wichtig

Wie in der Snowflake-Dokumentation beschrieben, kann die Aktivierung Ihres Snowflake-Kontos bis zu zwei Werktage dauern.

Rufen Sie nach AWS PrivateLink der Aktivierung die AWS PrivateLink Konfiguration für Ihre Region ab, indem Sie den folgenden Befehl in einem Snowflake-Arbeitsblatt ausführen. Melden Sie sich bei Ihrer Snowflake-Konsole an und geben Sie unter Arbeitsblätter Folgendes ein: select SYSTEM$GET_PRIVATELINK_CONFIG();

  1. Rufen Sie die Werte für Folgendes ab:privatelink-account-name, privatelink_ocsp-urlprivatelink-account-url, und privatelink_ocsp-url aus dem resultierenden JSON Objekt. Beispiele für jeden dieser Werte sind im folgenden Ausschnitt gezeigt. Speichern Sie diese Werte zur späteren Verwendung.

    privatelink-account-name: xxxxxxxx.region.privatelink privatelink-vpce-id: com.amazonaws.vpce.region.vpce-svc-xxxxxxxxxxxxxxxxx privatelink-account-url: xxxxxxxx.region.privatelink.snowflakecomputing.com privatelink_ocsp-url: ocsp.xxxxxxxx.region.privatelink.snowflakecomputing.com
  2. Wechseln Sie zu Ihrer AWS Konsole und navigieren Sie zum VPC Menü.

  3. Wählen Sie in der linken Seitenleiste den Link Endpoints aus, um zum VPCEndpoints-Setup zu gelangen.

    Wählen Sie dort Endpunkt erstellen aus.

  4. Wählen Sie die Optionsschaltfläche für Dienst nach Name suchen aus, wie im folgenden Screenshot gezeigt.

    Der Abschnitt „Endpunkt erstellen“ in der Konsole.
  5. Fügen Sie im Feld Dienstname den Wert für privatelink-vpce-id, den Sie im vorangehenden Schritt abgerufen haben, und wählen Sie Überprüfen aus.

    Wenn die Verbindung erfolgreich ist, erscheint auf Ihrem Bildschirm eine grüne Warnung mit der Meldung Dienstname gefunden, VPCund die Optionen und Subnetz werden automatisch erweitert, wie im folgenden Screenshot gezeigt. Je nach Ihrer Zielregion wird auf dem dann angezeigten Bildschirm ggf. der Name einer anderen AWS -Region angezeigt.

    Der Abschnitt Create Endpoint in der Konsole zeigt an, dass die Verbindung erfolgreich hergestellt wurde.
  6. Wählen Sie in der VPCDrop-down-Liste dieselbe VPC ID aus, die Sie an Snowflake gesendet haben.

  7. Wenn Sie noch kein Subnetz erstellt haben, folgen Sie den folgenden Anweisungen zum Erstellen eines Subnetzes.

  8. Wählen Sie Subnetze aus der Dropdownliste aus. VPC Wählen Sie dann Subnetz erstellen und folgen Sie den Anweisungen, um eine Untergruppe in Ihrem zu erstellen. VPC Stellen Sie sicher, dass Sie die VPC ID auswählen, die Sie Snowflake gesendet haben.

  9. Wählen Sie unter Konfiguration von Sicherheitsgruppen die Option Neue Sicherheitsgruppe erstellen aus, um das Standardfenster für Sicherheitsgruppen auf einer neuen Registerkarte zu öffnen. Wählen Sie auf dieser neuen Registerkarte die Option Sicherheitsgruppe erstellen aus.

  10. Geben Sie einen Namen für die neue Sicherheitsgruppe (z. B. datawrangler-doc-snowflake-privatelink-connection) und eine Beschreibung ein. Achten Sie darauf, die VPC ID auszuwählen, die Sie in den vorherigen Schritten verwendet haben.

  11. Fügen Sie zwei Regeln hinzu, um Datenverkehr von Ihrem VPC zu diesem VPC Endpunkt zuzulassen.

    Navigieren Sie VPCs in einem separaten Tab zu Ihrem VPC Bereich und rufen Sie Ihren CIDR Block für Ihren abVPC. Wählen Sie dann im Abschnitt Regeln für eingehenden Datenverkehr die Option Regel hinzufügen aus. Wählen Sie als Typ HTTPS aus, belassen Sie im Formular Quelle als Benutzerdefiniert und fügen Sie den beim vorangehenden describe-vpcs Aufruf abgerufenen Wert ein (z. B. 10.0.0.0/16).

  12. Wählen Sie Sicherheitsgruppen erstellen aus. Rufen Sie die ID der Sicherheitsgruppe aus der neu erstellten Sicherheitsgruppe ab (z. B. sg-xxxxxxxxxxxxxxxxx).

  13. Entfernen Sie im Bildschirm „VPCEndpunktkonfiguration“ die Standardsicherheitsgruppe. Fügen Sie die ID der Sicherheitsgruppe in das Suchfeld ein und aktivieren Sie das Kontrollkästchen.

    Der Abschnitt Sicherheitsgruppe in der Konsole.
  14. Wählen Sie Endpunkt erstellen aus.

  15. Wenn die Endpunkterstellung erfolgreich war, wird eine Seite mit einem Link zu Ihrer VPC Endpunktkonfiguration angezeigt, die durch die VPC ID angegeben wird. Wählen Sie das Link aus, damit die gesamte Konfiguration angezeigt wird.

    Der Abschnitt mit den Endpunktdetails.

    Ruft den obersten Datensatz in der DNS Namensliste ab. Dieser Name kann von anderen DNS Namen unterschieden werden, da er nur den Namen der Region (z. B.us-west-2) und keine Buchstabenbezeichnung für die Availability Zone (z. B.us-west-2a) enthält. Speichern Sie diese Informationen zur späteren Verwendung.

In diesem Abschnitt wird erklärt, wie Sie DNS für Snowflake-Endpunkte in Ihrem konfigurieren. VPC Auf diese Weise können Sie Anfragen VPC an den Snowflake-Endpunkt lösen. AWS PrivateLink

  1. Navigieren Sie in Ihrer AWS Konsole zum Route 53 53-Menü.

  2. Wählen Sie die Option Gehostete Zonen (erweitern Sie ggf. links das Menü, um diese Option zu finden).

  3. Wählen Sie Create Hosted Zone.

    1. Schauen Sie im Feld Domainname den Wert nach, der in den vorangehenden Schritten für privatelink-account-url gespeichert wurde. In diesem Feld wird Ihre Snowflake-Konto-ID aus dem DNS Namen entfernt und es wird nur der Wert verwendet, der mit der Regionskennung beginnt. Später wird auch ein Resource Record Set für die Subdomain erstellt, z. B. region.privatelink.snowflakecomputing.com

    2. Wählen Sie die Optionsschaltfläche für Private Hosted Zone im Abschnitt Typ aus. Der Code für Ihre Region ist ggf. nichtus-west-2. Verweisen Sie auf den DNS Namen, den Snowflake Ihnen zurückgegeben hat.

      Die Seite „Gehostete Zone erstellen“ in der Konsole.
    3. Wählen Sie im VPCs Abschnitt Mit der Hosting-Zone verknüpfen die Region aus, in der Sie VPC sich befinden, und die VPC ID, die Sie in den vorherigen Schritten verwendet haben.

      Der Abschnitt VPCs, der der Hosting-Zone zugeordnet werden soll in der Konsole.
    4. Wählen Sie Erstellte gehostete Zone.

  4. Erstellen Sie als Nächstes zwei Datensätze, einen für privatelink-account-url und einen für privatelink_ocsp-url.

    • Wählen Sie im Menü Hosted Zone die Option Datensätze erstellen aus.

      1. Geben Sie unter Datensatzname nur Ihre Snowflake-Konto-ID ein (die ersten 8 Zeichen in privatelink-account-url).

      2. Wählen Sie unter Datensatztyp die Option aus CNAME.

      3. Geben Sie unter Wert den DNS Namen für den regionalen VPC Endpunkt ein, den Sie im letzten Schritt des Abschnitts AWS PrivateLink Snowflake-Integration einrichten abgerufen haben.

        Der Abschnitt „Datensatz schnell erstellen“ in der Konsole.
      4. Wählen Sie Create records (Datensätze erstellen).

      5. Wiederholen Sie die vorherigen Schritte für den OCSP Datensatzprivatelink-ocsp-url, als den wir notiert haben, und beginnen Sie mit ocsp der 8-stelligen Snowflake-ID für den Datensatznamen (z. B.). ocsp.xxxxxxxx

        Der Abschnitt „Datensatz schnell erstellen“ in der Konsole.

In diesem Abschnitt wird erklärt, wie Sie eingehende Route-53-Resolver-Endpunkte für Ihre konfigurieren. VPC

  1. Navigieren Sie in Ihrer AWS Konsole zum Route 53 53-Menü.

    • Wählen Sie links im Bereich Sicherheit die Option Sicherheitsgruppen aus.

  2. Wählen Sie Sicherheitsgruppen erstellen aus.

    • Geben Sie einen Namen für Ihre Sicherheitsgruppe (z. B. datawranger-doc-route53-resolver-sg) und eine Beschreibung ein.

    • Wählen Sie die in den vorherigen Schritten verwendete VPC ID aus.

    • Erstellen Sie Regeln, die den DNS Zugriff auf UDP und TCP innerhalb des VPC CIDR Blocks zulassen.

      Der Abschnitt „Regeln für eingehende Nachrichten“ in der Konsole.
    • Wählen Sie Sicherheitsgruppen erstellen aus. Notieren Sie sich die Sicherheitsgruppen-ID, da eine Regel hinzugefügt wird, die den Datenverkehr zur VPC Endpunkt-Sicherheitsgruppe zulässt.

  3. Navigieren Sie in Ihrer AWS Konsole zum Route 53 53-Menü.

    • Wählen Sie im Bereich Resolver die Option Endpunkt für eingehenden Datenverkehr aus.

  4. Wählen Sie Endpunkt für eingehenden Datenverkehr erstellen aus.

    • Geben Sie einen Namen für den Endpunkt ein.

    • Wählen Sie VPCin der Dropdownliste „Region“ die VPC ID aus, die Sie in allen vorherigen Schritten verwendet haben.

    • Wählen Sie von der Auswahlliste Sicherheitsgruppe für diesen Endpunkt die Sicherheitsgruppen-ID aus Schritt 2 in diesem Abschnitt aus.

      Der Abschnitt Allgemeine Einstellungen für eingehende Endgeräte in der Konsole.
    • Wählen Sie im Abschnitt IP-Adresse eine Availability Zones aus, wählen Sie ein Subnetz aus und lassen Sie für jede IP-Adresse die Optionsschaltfläche für Automatisch ausgewählte IP-Adresse verwende ausgewählt.

      Der Abschnitt „IP-Adresse“ in der Konsole.
    • Wählen Sie Absenden aus.

  5. Wählen Sie den Endpunkt für eingehenden Datenverkehr aus, sobald dieser erstellt wurde.

  6. Sobald der Endpunkt für eingehenden Datenverkehr erstellt wurde, notieren Sie sich die beiden IP-Adressen für die Resolver.

    Der Abschnitt IP-Adressen in der Konsole.
SageMaker VPCEndpunkte

In diesem Abschnitt wird erklärt, wie VPC Endpoints für Folgendes erstellt werden: Amazon SageMaker Studio Classic, SageMaker Notebooks, SageMaker Runtime SageMaker API, Runtime und Amazon SageMaker Feature Store Runtime.

Eine Sicherheitsgruppe erstellen, die auf alle Endgeräte angewendet wird.

  1. Navigieren Sie zum EC2Menü in der AWS Konsole.

  2. Wählen Sie im Bereich Netzwerk und Sicherheit die Option Sicherheitsgruppen aus.

  3. Wählen Sie Sicherheitsgruppe erstellen aus.

  4. Geben Sie einen Namen und eine Beschreibung für die Sicherheitsgruppe an (z. B. datawrangler-doc-sagemaker-vpce-sg). Eine Regel wird später hinzugefügt, um den Datenverkehr HTTPS von SageMaker zu dieser Gruppe zu ermöglichen.

Endpunkte erstellen

  1. Navigieren Sie zum VPCMenü in der AWS Konsole.

  2. Wählen Sie die Option Endpunkte aus.

  3. Klicken Sie auf Create Endpunkt (Endpunkt erstellen).

  4. Suchen Sie nach dem Dienst, indem Sie dessen Namen in das Feld Suchen eingeben.

  5. Wählen Sie aus der VPCDropdownliste die aus, VPC in der Ihre Snowflake-Verbindung besteht AWS PrivateLink .

  6. Wählen Sie im Abschnitt Subnetze die Subnetze aus, die Zugriff auf die Snowflake-Verbindung haben. PrivateLink

  7. Lassen Sie das Kontrollkästchen „Name aktivieren DNS“ aktiviert.

  8. Wählen Sie im Abschnitt Sicherheitsgruppen die Sicherheitsgruppe aus, die Sie im vorangehenden Abschnitt erstellt haben.

  9. Klicken Sie auf Endpunkt erstellen.

Konfigurieren Sie Studio Classic und Data Wrangler

In diesem Abschnitt wird erklärt, wie Studio Classic und Data Wrangler konfiguriert werden.

  1. Sicherheitsgruppe konfigurieren.

    1. Navigieren Sie in der AWS Konsole zum EC2 Amazon-Menü.

    2. Wählen Sie im Bereich Netzwerk und Sicherheit die Option Sicherheitsgruppen aus.

    3. Wählen Sie Sicherheitsgruppen erstellen aus.

    4. Geben Sie einen Namen und eine Beschreibung für Ihre Sicherheitsgruppe an (z. B. datawrangler-doc-sagemaker-studio).

    5. Erstellen Sie die folgenden Regeln für eingehenden Datenverkehr.

      • Die HTTPS Verbindung zu der Sicherheitsgruppe, die Sie für die PrivateLink Snowflake-Verbindung bereitgestellt haben, die Sie im Schritt PrivateLink Snowflake-Integration einrichten erstellt haben.

      • Die HTTP Verbindung zu der Sicherheitsgruppe, die Sie für die PrivateLink Snowflake-Verbindung bereitgestellt haben, die Sie im Schritt Snowflake-Integration einrichten erstellt haben. PrivateLink

      • Die Sicherheitsgruppe UDP und TCP für DNS (Port 53) zu Route 53 Resolver Inbound Endpoint, die Sie in Schritt 2 von Route 53 Resolver Inbound Endpoint konfigurieren für Ihren erstellen. VPC

    6. Wählen Sie unten rechts in der Ecke die Schaltfläche Sicherheitsgruppe erstellen.

  2. Konfigurieren Sie Studio Classic.

    • Navigieren Sie zum SageMaker Menü in der AWS Konsole.

    • Wählen Sie auf der linken Konsole die Option SageMakerStudio Classic aus.

    • Wenn Sie keine Domains konfiguriert haben, wird das Menü Erste Schritte angezeigt.

    • Wählen Sie im Menü Erste Schritte die Option Standardeinrichtung aus.

    • Wählen Sie unter Authentifizierungsmethode die Option AWS Identity and Access Management (IAM) aus.

    • Im Menü Berechtigungen können Sie je nach Anwendungsfall eine neue Rolle erstellen oder eine bereits vorhandene Rolle verwenden.

      • Wenn Sie Neue Rolle erstellen wählen, erhalten Sie die Option, einen S3-Bucket-Namen anzugeben. Außerdem wird eine Richtlinie für Sie erzeugt.

      • Wenn Sie bereits eine Rolle mit Berechtigungen für die S3-Buckets erstellt haben, auf die Sie Zugriff benötigen, wählen Sie die Rolle von der Auswahlliste aus. Dieser Rolle sollte die Richtlinie AmazonSageMakerFullAccess angefügt werden.

    • Wählen Sie die Dropdownliste Netzwerk und Speicher aus, um die VerwendungVPC, Sicherheit und SageMaker Subnetznutzung zu konfigurieren.

      • Wählen Sie unter die aus VPC, VPC in der Ihre PrivateLink Snowflake-Verbindung besteht.

      • Wählen Sie unter Subnetz (e) die Subnetze aus, die Zugriff auf die Snowflake-Verbindung haben. PrivateLink

      • Wählen Sie unter Netzwerkzugriff für Studio Classic die Option Nur aus. VPC

      • Wählen Sie unter Sicherheitsgruppe(n) die Sicherheitsgruppe aus, die Sie in Schritt 1 erstellt haben.

    • Wählen Sie Absenden aus.

  3. Bearbeiten Sie die SageMaker Sicherheitsgruppe.

    • Erstellen Sie die folgenden Regeln für eingehenden Datenverkehr:

      • Port 2049 für die NFS Sicherheitsgruppen für eingehenden und ausgehenden Datenverkehr, die SageMaker in Schritt 2 automatisch erstellt wurden (die Namen der Sicherheitsgruppen enthalten die Studio Classic-Domänen-ID).

      • Zugriff auf alle TCP Ports zu sich selbst (erforderlich SageMaker für VPC Only).

  4. Bearbeiten Sie die VPC Endpoint Security Groups:

    • Navigieren Sie in der AWS Konsole zum EC2 Amazon-Menü.

    • Suchen Sie die Sicherheitsgruppe, die Sie in einem vorangehenden Schritt erstellt haben.

    • Fügen Sie eine Regel für eingehenden Datenverkehr hinzu, die den HTTPS Datenverkehr aus der in Schritt 1 erstellten Sicherheitsgruppe zulässt.

  5. Benutzerprofil erstellen.

    • Wählen Sie in der Systemsteuerung von SageMaker Studio Classic die Option Benutzer hinzufügen aus.

    • Geben Sie einen Benutzernamen an.

    • Wählen Sie für die Ausführungsrolle aus, ob Sie eine neue Rolle erstellen oder eine bereits vorhandene Rolle verwenden möchten.

      • Wenn Sie Neue Rolle erstellen auswählen, erhalten Sie die Option, einen Amazon-S3-Bucket-Namen anzugeben, und es wird eine Richtlinie für Sie erzeugt.

      • Wenn Sie bereits eine Rolle mit Berechtigungen für die Amazon-S3-Buckets erstellt haben, auf die Sie Zugriff benötigen, wählen Sie die Rolle von der Auswahlliste aus. Dieser Rolle sollte die Richtlinie AmazonSageMakerFullAccess angefügt werden.

    • Wählen Sie Absenden aus.

  6. Erstellen Sie einen Datenablauf (folgen Sie hierzu dem Leitfaden für Datenwissenschaftler, der in einem vorangehenden Abschnitt beschrieben wurde).

    • Geben Sie beim Hinzufügen einer Snowflake-Verbindung anstelle des einfachen Snowflake-Kontonamens den Wert von privatelink-account-name (aus dem Schritt PrivateLinkSnowflake-Integration einrichten) in das Feld Snowflake-Kontoname (alphanumerisch) ein. Alles andere bleibt unverändert.

Informationen für den Datenwissenschaftler zur Verfügung stellen

Stellen Sie dem Datenwissenschaftler die Informationen zur Verfügung, die er für den Zugriff auf Snowflake von Amazon SageMaker Data Wrangler aus benötigt.

Wichtig

Ihre Benutzer müssen Amazon SageMaker Studio Classic Version 1.3.0 oder höher ausführen. Informationen zum Überprüfen und Aktualisieren der Version von Studio Classic finden Sie unterVorbereiten von ML-Daten mit Amazon SageMaker Data Wrangler.

  1. Damit Ihr Datenwissenschaftler von SageMaker Data Wrangler aus auf Snowflake zugreifen kann, stellen Sie ihm eine der folgenden Informationen zur Verfügung:

    • Für die Basisauthentifizierung einen Snowflake-Kontonamen, einen Benutzernamen und ein Passwort.

    • FürOAuth, einen Benutzernamen und ein Passwort im Identity Provider.

    • Denn ARN der geheime Amazon-Ressourcenname (ARN) des Secrets Secrets Manager.

    • Ein Geheimnis, das mit AWS Secrets Manager und dem ARN Secret erstellt wurde. Gehen Sie wie folgt vor, um das Secret für Snowflake zu erstellen, wenn Sie diese Option wählen.

      Wichtig

      Wenn Ihre Datenwissenschaftler die Option Snowflake-Anmeldeinformationen (Benutzername und Passwort) verwenden, um eine Verbindung zu Snowflake herzustellen, können Sie die Anmeldeinformationen mit Secrets Manager in einem Secret speichern. Secrets Manager rotiert Secrets im Rahmen eines auf bewährten Methoden basierenden Sicherheitsplans. Auf das im Secrets Manager erstellte Geheimnis kann nur zugegriffen werden, wenn die Studio Classic-Rolle konfiguriert ist, wenn Sie ein Studio Classic-Benutzerprofil einrichten. Dazu müssen Sie diese Berechtigung zu der Richtlinie hinzufügensecretsmanager:PutResourcePolicy, die Ihrer Studio Classic-Rolle zugeordnet ist.

      Es wird dringend empfohlen, die Rollenrichtlinie so zu gestalten, dass unterschiedliche Rollen für verschiedene Gruppen von Studio Classic-Benutzern verwendet werden. Sie können weitere ressourcenbasierte Berechtigungen für die Secrets-Manager-Secrets hinzufügen. Bedingungsschlüssel, die Sie verwenden können, finden Sie unter Secret Policy verwalten.

      Informationen dazu, wie Sie ein Secret erstellen können, finden Sie unter Secret erstellen. Die von Ihnen erstellten Secrets werden Ihnen in Rechnung gestellt.

  2. (Optional) Teilen Sie dem Datenwissenschaftler den Namen der Speicherintegration mit, die Sie mithilfe des Verfahrens Cloud-Speicherintegration in Snowflake erstellen erstellt haben. Dies ist der Name der neuen Integration und wird integration_name in dem von Ihnen ausgeführten CREATE INTEGRATION SQL Befehl aufgerufen, der im folgenden Codeausschnitt dargestellt ist:

    CREATE STORAGE INTEGRATION integration_name TYPE = EXTERNAL_STAGE STORAGE_PROVIDER = S3 ENABLED = TRUE STORAGE_AWS_ROLE_ARN = 'iam_role' [ STORAGE_AWS_OBJECT_ACL = 'bucket-owner-full-control' ] STORAGE_ALLOWED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') [ STORAGE_BLOCKED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') ]

Leitfaden für Datenwissenschaftler

Gehen Sie wie folgt vor, um Snowflake zu verbinden und in Data Wrangler auf Ihre Daten zuzugreifen.

Wichtig

Ihr Administrator muss die Informationen in den vorangehenden Abschnitten verwenden, um Snowflake einzurichten. Wenn Sie Probleme auftreten, wenden Sie sich an Ihren Administrator, um Hilfe bei der Fehlerbehebung zu erhalten.

Eine Verbindung zu Snowflake können Sie wie folgt herstellen:

  • Geben Sie Ihre Snowflake-Anmeldeinformationen (Kontoname, Benutzername und Passwort) in Data Wrangler an.

  • Angabe eines Amazon-Ressourcennamens (ARN) eines Geheimnisses, das die Anmeldeinformationen enthält.

  • Verwendung eines offenen Standardanbieters für die Zugriffsdelegierung (OAuth), der eine Verbindung zu Snowflake herstellt. Ihr Administrator kann Ihnen Zugriff auf einen der folgenden OAuth Anbieter gewähren:

Sprechen Sie mit Ihrem Administrator über die Methode, die Sie für die Verbindung zu Snowflake verwenden müssen.

In den folgenden Abschnitten finden Sie Informationen darüber, wie Sie mit den o.g. Methoden eine Verbindung zu Snowflake herstellen können.

Specifying your Snowflake Credentials
Um aus Snowflake einen Datensatz mit Ihren Anmeldeinformationen in Data Wrangler zu importieren
  1. Melden Sie sich bei Amazon SageMaker Console an.

  2. Wählen Sie Studio.

  3. Wählen Sie App starten.

  4. Wählen Sie in der Auswahlliste Studio aus.

  5. Wählen Sie das Symbol Startseite aus.

  6. Wählen Sie Datenaus.

  7. Wählen Sie Data Wrangler.

  8. Wählen Sie Daten importieren aus.

  9. Wählen Sie unter Verfügbar die Option Snowflake aus.

  10. Geben Sie unter Name der Verbindung einen Namen an, der die Verbindung eindeutig angibt.

  11. Wählen Sie für die Authentifizierungsmethode Basis (Benutzername/Passwort) aus.

  12. Geben Sie für Snowflake-Kontoname (alphanumerisch) den vollständigen Namen des Snowflake-Kontos an.

  13. Geben Sie unter Benutzername den Benutzernamen an, den Sie für den Zugriff auf das Snowflake-Konto verwenden.

  14. Geben Sie für Passwort das mit dem Benutzernamen verbundene Passwort an.

  15. (Optional) Geben Sie für erweiterte Einstellungen Folgendes an:

    • Rolle – Eine Rolle innerhalb von Snowflake. Manche Rollen haben Zugriff auf verschiedene Datensätze. Wenn Sie keine Rolle angeben, verwendet Data Wrangler in Ihrem Snowflake-Konto die Standardrolle.

    • Speicherintegration – Wenn Sie eine Abfrage angeben und ausführen, erstellt Data Wrangler eine temporäre Kopie der Abfrageergebnisse im Speicher. Um eine permanente Kopie der Abfrageergebnisse zu speichern, geben Sie den Amazon S3-Speicherort für die Speicherintegration an. Ihr Administrator hat Ihnen das S3 zur Verfügung gestelltURI.

    • KMSSchlüssel-ID — Ein KMS Schlüssel, den Sie erstellt haben. Sie können es angebenARN, um die Ausgabe der Snowflake-Abfrage zu verschlüsseln. Andernfalls verwendet Data Wrangler die Standardverschlüsselung.

  16. Wählen Sie Connect aus.

Providing an Amazon Resource Name (ARN)
Um einen Datensatz aus Snowflake in Data Wrangler zu importieren, verwenden Sie einen ARN
  1. Melden Sie sich bei Amazon SageMaker Console an.

  2. Wählen Sie Studio.

  3. Wählen Sie App starten.

  4. Wählen Sie in der Auswahlliste Studio aus.

  5. Wählen Sie das Symbol Startseite aus.

  6. Wählen Sie Datenaus.

  7. Wählen Sie Data Wrangler.

  8. Wählen Sie Daten importieren aus.

  9. Wählen Sie unter Verfügbar die Option Snowflake aus.

  10. Geben Sie unter Name der Verbindung einen Namen an, der die Verbindung eindeutig angibt.

  11. Wählen Sie als Authentifizierungsmethode ARN.

  12. Secrets Manager ARN — Der AWS Secrets Manager Secret, ARN der zum Speichern der Anmeldeinformationen verwendet wird, die für die Verbindung mit Snowflake verwendet werden.

  13. (Optional) Geben Sie für erweiterte Einstellungen Folgendes an:

    • Rolle – Eine Rolle innerhalb von Snowflake. Manche Rollen haben Zugriff auf verschiedene Datensätze. Wenn Sie keine Rolle angeben, verwendet Data Wrangler in Ihrem Snowflake-Konto die Standardrolle.

    • Speicherintegration – Wenn Sie eine Abfrage angeben und ausführen, erstellt Data Wrangler eine temporäre Kopie der Abfrageergebnisse im Speicher. Um eine permanente Kopie der Abfrageergebnisse zu speichern, geben Sie den Amazon S3-Speicherort für die Speicherintegration an. Ihr Administrator hat Ihnen das S3 zur Verfügung gestellt. URI

    • KMSSchlüssel-ID — Ein KMS Schlüssel, den Sie erstellt haben. Sie können es angebenARN, um die Ausgabe der Snowflake-Abfrage zu verschlüsseln. Andernfalls verwendet Data Wrangler die Standardverschlüsselung.

  14. Wählen Sie Connect aus.

Using an OAuth Connection
Wichtig

Ihr Administrator hat Ihre Studio Classic-Umgebung so angepasst, dass sie die Funktionen bereitstellt, die Sie für die Verwendung einer Verbindung verwenden. OAuth Sie müssen die Jupyter-Serveranwendung ggf. neu starten, um die Funktionalität nutzen zu können.

Gehen Sie wie folgt vor, um die Jupyter-Serveranwendung zu aktualisieren.

  1. Wählen Sie in Studio Classic Datei

  2. Wählen Sie Herunterfahren aus.

  3. Wählen Sie Server herunterfahren aus.

  4. Schließen Sie den Tab oder das Fenster, das Sie für den Zugriff auf Studio Classic verwenden.

  5. Öffnen Sie Studio Classic von der SageMaker Amazon-Konsole aus.

Um aus Snowflake einen Datensatz mit Ihren Anmeldeinformationen in Data Wrangler zu importieren
  1. Melden Sie sich bei Amazon SageMaker Console an.

  2. Wählen Sie Studio.

  3. Wählen Sie App starten.

  4. Wählen Sie in der Auswahlliste Studio aus.

  5. Wählen Sie das Symbol Startseite aus.

  6. Wählen Sie Datenaus.

  7. Wählen Sie Data Wrangler.

  8. Wählen Sie Daten importieren aus.

  9. Wählen Sie unter Verfügbar die Option Snowflake aus.

  10. Geben Sie unter Name der Verbindung einen Namen an, der die Verbindung eindeutig angibt.

  11. Wählen Sie als Authentifizierungsmethode OAuth.

  12. (Optional) Geben Sie für erweiterte Einstellungen Folgendes an:

    • Rolle – Eine Rolle innerhalb von Snowflake. Manche Rollen haben Zugriff auf verschiedene Datensätze. Wenn Sie keine Rolle angeben, verwendet Data Wrangler in Ihrem Snowflake-Konto die Standardrolle.

    • Speicherintegration – Wenn Sie eine Abfrage angeben und ausführen, erstellt Data Wrangler eine temporäre Kopie der Abfrageergebnisse im Speicher. Um eine permanente Kopie der Abfrageergebnisse zu speichern, geben Sie den Amazon S3-Speicherort für die Speicherintegration an. Ihr Administrator hat Ihnen das S3 zur Verfügung gestelltURI.

    • KMSSchlüssel-ID — Ein KMS Schlüssel, den Sie erstellt haben. Sie können es angebenARN, um die Ausgabe der Snowflake-Abfrage zu verschlüsseln. Andernfalls verwendet Data Wrangler die Standardverschlüsselung.

  13. Wählen Sie Connect aus.

Sie können mit dem Import Ihrer Daten aus Snowflake beginnen, sobald Sie eine Verbindung hergestellt haben.

In Data Wrangler können Sie sich Ihre Data Warehouses, Datenbanken und Schemata sowie das Augensymbol anzeigen lassen, über das Sie sich eine Vorschau Ihrer Tabelle anzeigen lassen können. Wenn Sie das Symbol Tabellenvorschau ausgewählt haben, wird die Schemavorschau dieser Tabelle erzeugt. Sie müssen ein Warehouse auswählen, bevor Sie eine Tabellenvorschau sehen können.

Wichtig

Wenn Sie einen Datensatz mit Spalten vom Typ TIMESTAMP_TZ oder TIMESTAMP_LTZ importieren, fügen Sie ::string zu den Spaltennamen Ihrer Abfrage hinzu. Weitere Informationen finden Sie unter So geht's: TIMESTAMP _TZ- und TIMESTAMP LTZ _-Daten in eine Parquet-Datei entladen.

Wenn Sie ein Data Warehouse, eine Datenbank und ein Schema ausgewählt haben, können Sie nun Abfragen schreiben und diese ausführen. Die Ausgabe zu Ihrer Abfrage wird unter Abfrageergebnisse angezeigt.

Wenn Sie sich für die Ausgabe Ihrer Abfrage entschieden haben, können Sie die Ausgabe Ihrer Abfrage in einen Data-Wrangler-Ablauf importieren, um Datentransformationen vorzunehmen.

Wenn Sie Ihre Daten importiert haben, navigieren Sie zu Ihrem Data-Wrangler-Ablauf und beginnen Sie damit, Transformationen hinzuzufügen. Eine Liste der verfügbaren Transformationen finden Sie unter Daten transformieren.

Daten von SaaS-Plattformen (Software-as-a-Service) importieren

Mit Data Wrangler können Sie Daten von mehr als vierzig SaaS-Plattformen (Software as a Service) importieren. Um Ihre Daten von Ihrer SaaS-Plattform zu importieren, müssen Sie oder Ihr Administrator Amazon verwenden, AppFlow um die Daten von der Plattform zu Amazon S3 oder Amazon Redshift zu übertragen. Weitere Informationen zu Amazon AppFlow finden Sie unter Was ist Amazon AppFlow? Wenn Sie Amazon Redshift nicht zu verwenden brauchen, empfehlen wir, die Daten nach Amazon S3 zu übertragen, um das Verfahren zu vereinfachen.

Data Wrangler unterstützt die Übertragung von Daten von den folgenden SaaS-Plattformen:

Die obige Liste enthält Links zu weiteren Informationen dazu, wie Sie Ihre Datenquelle einrichten müssen. Sie oder Ihr Administrator können auf die obigen Links verweisen, sobald Sie die folgenden Informationen gelesen haben.

Wenn Sie in Ihrem Data-Wrangler-Ablauf zur Registerkarte Import navigieren, sehen Sie Datenquellen in den folgenden Abschnitten:

  • Verfügbar

  • Datenquellen einrichten

Sie können unter Verfügbar eine Verbindung zu Datenquellen herstellen, ohne dass eine zusätzliche Konfiguration erforderlich ist. Sie können die Datenquelle auswählen und Ihre Daten importieren.

Für Datenquellen unter Datenquellen einrichten müssen Sie oder Ihr Administrator Amazon AppFlow verwenden, um die Daten von der SaaS-Plattform zu Amazon S3 oder Amazon Redshift zu übertragen. Informationen zur Durchführung einer Übertragung finden Sie unter Verwenden Sie Amazon AppFlow , um Ihre Daten zu übertragen.

Wenn Sie die Datenübertragung durchgeführt haben, erscheint wird die SaaS-Plattform als Datenquelle unter Verfügbar. Sie können sie auswählen und die Daten, die Sie in Data Wrangler übertragen haben, importieren. Die Daten, die Sie übertragen haben, werden als Tabellen angezeigt, die Sie abfragen können.

Verwenden Sie Amazon AppFlow , um Ihre Daten zu übertragen

Amazon AppFlow ist eine Plattform, mit der Sie Daten von Ihrer SaaS-Plattform zu Amazon S3 oder Amazon Redshift übertragen können, ohne Code schreiben zu müssen. Um eine Datenübertragung durchzuführen, verwenden Sie die AWS Management Console.

Wichtig

Sie müssen sich vergewissern, dass Sie die Berechtigungen für die Durchführung einer Datenübertragung eingerichtet haben. Weitere Informationen finden Sie unter AppFlow Amazon-Berechtigungen.

Sobald Sie die Berechtigungen hinzugefügt haben, können Sie die Daten übertragen. Innerhalb von Amazon AppFlow erstellen Sie einen Flow zur Übertragung der Daten. Ein Ablauf besteht aus einer Reihe von Konfigurationen. Sie können damit angeben, ob Sie die Datenübertragung nach einem Zeitplan ausführen oder ob Sie die Daten in separate Dateien partitionieren. Wenn Sie den Ablauf konfiguriert haben, führen Sie ihn aus, um die Daten zu übertragen.

Informationen zum Erstellen eines Flows finden Sie unter Flows in Amazon erstellen AppFlow. Informationen zum Ausführen eines Flows finden Sie unter Aktivieren eines AppFlow Amazon-Flows.

Gehen Sie nach der Übertragung der Daten wie folgt vor, um auf die Daten in Data Wrangler zuzugreifen.

Wichtig

Bevor Sie versuchen, auf Ihre Daten zuzugreifen, stellen Sie sicher, dass für Ihre IAM Rolle die folgenden Richtlinien gelten:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "glue:SearchTables", "Resource": [ "arn:aws:glue:*:*:table/*/*", "arn:aws:glue:*:*:database/*", "arn:aws:glue:*:*:catalog" ] } ] }

Standardmäßig ist die IAM Rolle, die Sie für den Zugriff auf Data Wrangler verwenden, die. SageMakerExecutionRole Weitere Informationen zum Hinzufügen von Richtlinien finden Sie unter Hinzufügen von IAM Identitätsberechtigungen (Konsole).

Gehen Sie wie folgt vor, um eine Verbindung zu einer Datenquelle herzustellen.

  1. Melden Sie sich bei Amazon SageMaker Console an.

  2. Wählen Sie Studio.

  3. Wählen Sie App starten.

  4. Wählen Sie in der Auswahlliste Studio aus.

  5. Wählen Sie das Symbol Startseite aus.

  6. Wählen Sie Datenaus.

  7. Wählen Sie Data Wrangler.

  8. Wählen Sie Daten importieren aus.

  9. Wählen Sie unter Verfügbar die Datenquelle aus.

  10. Geben Sie im Feld Name den Namen der Verbindung ein.

  11. (Optional) Wählen Sie Erweiterte Konfiguration aus.

    1. Wählen Sie eine Arbeitsgruppe aus.

    2. Wenn Ihre Arbeitsgruppe den Amazon S3-Ausgabespeicherort nicht durchgesetzt hat oder wenn Sie keine Arbeitsgruppe verwenden, geben Sie einen Wert für den Amazon S3-Speicherort für die Abfrageergebnisse an.

    3. (Optional) Aktivieren Sie für Datenaufbewahrungsdauer das Kontrollkästchen, um eine Datenaufbewahrungsdauer festzulegen, und geben Sie die Anzahl der Tage an, für die die Daten gespeichert werden sollen, bevor sie gelöscht werden.

    4. (Optional) Data Wrangler speichert die Verbindung standardmäßig. Sie können das Kontrollkästchen deaktivieren und die Verbindung nicht speichern.

  12. Wählen Sie Connect aus.

  13. Geben Sie eine Abfrage an.

    Anmerkung

    Als Hilfestellung bei der Angabe einer Abfrage können Sie im linken Navigationsbereich eine Tabelle auswählen. Data Wrangler zeigt den Tabellennamen und eine Vorschau der Tabelle an. Wählen Sie das Symbol neben dem Tabellennamen aus, um den Namen zu kopieren. Den Tabellennamen können Sie in der Abfrage verwenden.

  14. Wählen Sie Ausführen aus.

  15. Wählen Sie Abfrage importieren aus.

  16. Geben Sie als Datensatzname den Namen des Datensatzes an.

  17. Wählen Sie Hinzufügen aus.

Wenn Sie zum Bildschirm Daten importieren navigieren, können Sie die Verbindung sehen, die Sie erstellt haben. Über die Verbindung können Sie weitere Daten importieren.

Speicher für importierte Daten

Wichtig

Wir empfehlen Ihnen dringend, den bewährten Methoden zum Schutz Ihres Amazon-S3-Buckets zu folgen, indem Sie den bewährten Sicherheitsmethoden folgen.

Wenn Sie Daten von Amazon Athena oder Amazon Redshift abfragen, wird der abgefragte Datensatz automatisch in Amazon S3 gespeichert. Daten werden im SageMaker Standard-S3-Bucket für die AWS Region gespeichert, in der Sie Studio Classic verwenden.

Standard-S3-Buckets haben die folgende Namenskonvention: sagemaker-region-account number. Wenn Ihre Kontonummer beispielsweise 111122223333 lautet und Sie Studio Classic in verwendenus-east-1, werden Ihre importierten Datensätze in 111122223333 gespeichert. sagemaker-us-east-1-

Data-Wrangler-Abläufe hängen von diesem Speicherort für Amazon S3-Datensätze ab. Daher sollten Sie diesen Datensatz in Amazon S3 nicht ändern, solange Sie einen abhängigen Ablauf verwenden. Wenn Sie diesen S3-Speicherort ändern und Ihren Datenablauf weiterhin verwenden möchten, müssen Sie alle Objekte in trained_parameters in Ihrer .flow-Datei entfernen. Laden Sie dazu die .flow-Datei von Studio Classic herunter und löschen Sie für jede Instanz von alle Einträge. trained_parameters Wenn Sie fertig sind, trained_parameters sollte es ein leeres JSON Objekt sein:

"trained_parameters": {}

Wenn Sie Ihren Datenablauf exportieren und zur Verarbeitung Ihrer Daten verwenden, bezieht sich die von Ihnen exportierte .flow-Datei auf diesen Datensatz in Amazon S3. In den folgenden Abschnitten erfahren Sie mehr dazu.

Speicher für Amazon Redshift-Import

Data Wrangler speichert die Datensätze, die sich aus Ihrer Abfrage ergeben, in einer Parquet-Datei in Ihrem SageMaker Standard-S3-Bucket.

Diese Datei wird unter dem folgenden Präfix (Verzeichnis) gespeichert: redshift/uuid/data/, wo uuid ist ein eindeutiger Bezeichner, der für jede Abfrage erstellt wird.

Wenn Ihr Standard-Bucket beispielsweise lautet, befindet sich ein einzelner Datensatzsagemaker-us-east-1-111122223333, der von Amazon Redshift abgefragt wurde, in s3://-1-111122223333/redshift/ sagemaker-us-eastuuid/data/.

Speicher für Amazon Athena-Import

Wenn Sie eine Athena-Datenbank abfragen und einen Datensatz importieren, speichert Data Wrangler den Datensatz sowie eine Teilmenge dieses Datensatzes oder Vorschaudateien in Amazon S3.

Der Datensatz, den Sie importieren, indem Sie Datensatz importieren auswählen, wird in Amazon S3 im Parquet-Format gespeichert.

Vorschaudateien werden im CSV Format geschrieben, wenn Sie auf dem Athena-Importbildschirm Ausführen auswählen, und enthalten bis zu 100 Zeilen aus Ihrem abgefragten Datensatz.

Der Datensatz, den Sie abfragen, befindet sich unter dem Präfix (Verzeichnis): athena/uuid/data/, wo uuid ist ein eindeutiger Bezeichner, der für jede Abfrage erstellt wird.

Wenn Ihr Standard-Bucket beispielsweise lautet, befindet sich ein einzelner Datensatzsagemaker-us-east-1-111122223333, der von Athena abgefragt wurde, in /athena/ s3://sagemaker-us-east-1-111122223333uuid/data/example_dataset.parquet.

Die Teilmenge des Datensatzes, die zur Vorschau von Dataframes in Data Wrangler gespeichert wird, wird unter dem Präfix: athena/ abgespeichert.