Import - Amazon SageMaker

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Import

Sie können Amazon SageMaker Data Wrangler verwenden, um Daten aus den folgenden Datenquellen zu importieren: Amazon Simple Storage Service (Amazon S3), Amazon Athena , Amazon Redshift und Snowflake. Der Datensatz, den Sie importieren, kann bis zu 1000 Spalten enthalten.

Bei manchen Datenquellen können Sie mehrere Datenverbindungen hinzufügen:

  • Sie können eine Verbindung zu mehreren Amazon-Redshift-Clustern herstellen. Jeder Cluster wird zu einer Datenquelle.

  • Sie können jede Athena-Datenbank in Ihrem Konto abfragen, um Daten aus dieser Datenbank zu importieren.

Wenn Sie einen Datensatz aus einer Datenquelle importieren, wird er in Ihrem Datenablauf angezeigt. Data Wrangler leitet automatisch den Datentyp jeder Spalte in Ihrem Datensatz ab. Um diese Typen zu ändern, wählen Sie den Schritt Datentypen aus und wählen Sie Datentypen bearbeiten aus.

Wenn Sie Daten aus Athena oder Amazon Redshift importieren, werden die importierten Daten automatisch im Standard- SageMaker S3-Bucket für die AWS Region gespeichert, in der Sie Studio Classic verwenden. Darüber hinaus speichert Athena Daten, die Sie in Data Wrangler in der Vorschau betrachten, in diesem Bucket. Weitere Informationen hierzu finden Sie unter Speicher für importierte Daten.

Wichtig

Der standardmäßige Amazon S3-Bucket verfügt ggf. nicht über die am stärksten eingeschränkten Sicherheitseinstellungen, wie z.B. Bucket-Richtlinie und serverseitige Verschlüsselung (SSE). Wir empfehlen dringend, eine Bucket-Richtlinie hinzuzufügen, um den Zugriff auf in Data Wrangler importierte Datensätze einzuschränken.

Wichtig

Wenn Sie die verwaltete Richtlinie für verwenden SageMaker, empfehlen wir außerdem dringend, sie auf die restriktivste Richtlinie zu beschränken, mit der Sie Ihren Anwendungsfall durchführen können. Weitere Informationen finden Sie unter Erteilen Sie einer IAM-Rolle die Erlaubnis, Data Wrangler zu verwenden.

Bei allen Datenquellen mit Ausnahme von Amazon Simple Storage Service (Amazon S3) müssen Sie eine SQL-Abfrage angeben, um Ihre Daten zu importieren. Für jede Abfrage müssen Sie Folgendes angeben:

  • Datenkatalog

  • Datenbank

  • Tabelle

Sie können den Namen der Datenbank oder des Datenkatalogs entweder in den Auswahlmenüs oder in der Abfrage angeben. Nachfolgend finden Sie Beispiele für Abfragen:

  • select * from example-data-catalog-name.example-database-name.example-table-name- Die Abfrage verwendet zur Ausführung nichts, was in den Auswahlmenüs der Benutzeroberfläche (UI) angegeben ist. Sie fragt example-table-name innerhalb von example-database-name innerhalb von example-data-catalog-name ab.

  • select * from example-database-name.example-table-name - Die Abfrage verwendet für die Ausführung den Datenkatalog, den Sie im Auswahlmenü Datenkatalog angegeben haben. Sie fragt example-table-name innerhalb von example-database-name innerhalb des Datenkatalogs ab, den Sie angegeben haben.

  • select * from example-table-name - Für die Abfrage müssen Sie Felder für die Auswahlmenüs Datenkatalog und Datenbankname auswählen. Sie fragt example-table-name innerhalb des Datenkatalogs innerhalb der Datenbank und des Datenkatalogs ab, die Sie angegeben haben.

Die Verknüpfung zwischen Data Wrangler und der Datenquelle ist eine Verbindung. Sie verwenden die Verbindung, um Daten aus Ihrer Datenquelle zu importieren.

Es gibt die folgenden Verbindungstypen:

  • Direkt

  • Katalogisiert

Data Wrangler hat in einer direkten Verbindung immer Zugriff auf die aktuellsten Daten. Wenn die Daten in der Datenquelle aktualisiert wurden, können Sie die Verbindung verwenden, um die Daten zu importieren. Wenn z.B. jemand eine Datei zu einem Ihrer Amazon S3-Buckets hinzufügt, können Sie die Datei importieren.

Eine katalogisierte Verbindung ist das Ergebnis einer Datenübertragung. Die Daten in der katalogisierten Verbindung enthalten nicht unbedingt die aktuellsten Daten. Sie könnten z.B. eine Datenübertragung zwischen Salesforce und Amazon S3 einrichten. Wenn die Salesforce-Daten aktualisiert werden, müssen Sie die Daten erneut übertragen. Sie können den Prozess der Datenübertragung automatisieren. Weitere Informationen zur Datenübertragung finden Sie unter Daten von SaaS-Plattformen (Software-as-a-Service) importieren.

Daten aus Amazon S3 importieren

Mit Hilfe von Amazon Simple Storage Service (Amazon S3) können Sie beliebige Datenmengen speichern und abrufen, jederzeit und von überall im Internet aus. Sie können diese Aufgaben mit Hilfe von AWS Management Console erledigen, einer einfachen und intuitiven Web-Obeerfläche, und der API Amazon S3. Wenn Sie Ihren Datensatz lokal gespeichert haben, empfehlen wir Ihnen, ihn zu einem S3-Bucket hinzuzufügen, um ihn in Data Wrangler zu importieren. Wie das geht, erfahren Sie unter Ein Objekt in einen Bucket hochladen im Benutzerhandbuch zum Amazon Simple Storage Service.

Data Wrangler verwendet S3 Select, damit Sie eine Vorschau Ihrer Amazon S3-Dateien in Data Wrangler erhalten können. Für jede Dateivorschau werden Ihnen Standardgebühren berechnet. Weitere Informationen zu den Preisen finden Sie auf der Registerkarte Anfragen und Datenabrufe auf Amazon S3-Preise.

Wichtig

Wenn Sie planen, einen Datenfluss zu exportieren und einen Data Wrangler-Auftrag zu starten, Daten in einen SageMaker Feature-Speicher aufzunehmen oder eine SageMaker Pipeline zu erstellen, beachten Sie, dass sich diese Integrationen erfordern, dass sich Amazon S3-Eingabedaten in derselben AWS Region befinden.

Wichtig

Wenn Sie eine CSV-Datei importieren, achten Sie darauf, dass diese die folgenden Anforderungen erfüllt:

  • Kein Datensatz in Ihrem Datensatz darf länger als eine Zeile sein.

  • Ein Backslash, \, ist das einzige gültige Escape-Zeichen.

  • Ihr Datensatz muss eines der folgenden Trennzeichen verwenden:

    • Komma – ,

    • Doppelpunkt – :

    • Semikolon – ;

    • Pipe – |

    • Tab – [TAB]

Um Speicherplatz zu sparen, können Sie komprimierte CSV-Dateien importieren.

Data Wrangler bietet Ihnen die Möglichkeit, entweder den gesamten Datensatz zu importieren oder eine Stichprobe daraus. Für Amazon S3 bietet es die folgenden Optionen für die Probenahme:

  • Keine - Importiert den gesamten Datensatz.

  • Erstes K - Stichprobe der ersten K Zeilen des Datensatzes, wobei K eine von Ihnen angegebene Ganzzahl ist.

  • Randomisiert - Nimmt eine zufällige Stichprobe mit einer von Ihnen angegebenen Größe.

  • Stratifiziert - Entnimmt eine stratifizierte zufällige Stichprobe. Eine stratifizierte Stichprobe behält das Verhältnis der Werte in einer Spalte bei.

Sobald Sie Ihre Daten importiert haben, können Sie auch den Probenahme-Transformator verwenden, um eine oder mehrere Stichproben aus Ihrem gesamten Datensatz zu nehmen. Weitere Informationen über den Probenahme-Transformator finden Sie unter Sampling.

Verwenden Sie eine der folgenden Ressourcen-IDs, um Ihre Daten zu importieren:

  • Eine Amazon S3-URI, die einen Amazon S3-Bucket oder einen Amazon S3 Access Point verwendet

  • Ein Alias für einen Amazon S3 Access Point

  • Ein Amazon-Ressourcenname (ARN), der einen Amazon S3 Access Point oder einen Amazon S3-Bucket verwendet

Amazon S3 Access Points sind benannte Netzwerk-Endpunkte, die an Buckets angehängt sind. Jeder Zugangspunkt verfügt über unterschiedliche Berechtigungen und Netzwerksteuerungen, die Sie konfigurieren können. Weitere Informationen zu Zugangspunkten finden Sie unter Verwalten des Datenzugriffs mit Amazon S3 Access Points.

Wichtig

Wenn Sie einen Amazon-Ressourcennamen (ARN) zum Importieren Ihrer Daten verwenden, muss dieser für eine Ressource gelten, die sich in derselben befindetAWS-Region, die Sie für den Zugriff auf Amazon SageMaker Studio Classic verwenden.

Sie können entweder eine einzelne Datei oder mehrere Dateien als Datensatz importieren. Sie können den Vorgang zum Importieren mehrerer Dateien verwenden, wenn Sie einen Datensatz haben, der in separate Dateien partitioniert ist. Er nimmt alle Dateien aus einem Amazon S3-Verzeichnis und importiert sie als ein einziger Datensatz. Informationen zu den Dateitypen, die Sie importieren können, und wie diese importiert werden, finden Sie in den folgenden Abschnitten.

Single File Import

Einzelne Dateien können Sie in den folgenden Formaten importieren:

  • Comma Separated Values (CSV)

  • Parquet

  • Javascript Object Notation (JSON)

  • Optimized Row Columnar (ORC)

  • Image - Data Wrangler verwendet OpenCV zum Importieren von Images. Weitere Informationen zu den unterstützten Image-Formaten finden Sie unter Image-Dateien lesen und schreiben .

Für in JSON formatierte Dateien unterstützt Data Wrangler sowohl JSON-Zeilen (.jsonl) als auch JSON-Dokumente (.json). Wenn Sie sich eine Vorschau Ihrer Daten anzeigen lassen, wird das JSON automatisch im Tabellenformat angezeigt. Bei verschachtelten JSON-Dokumenten, die größer als 5 MB sind, zeigt Data Wrangler das Schema für die Struktur und die Arrays als Werte im Datensatz an. Verwenden Sie die Operatoren Flatten structured und Explode array, damit die verschachtelten Werte in tabellarischer Form angezeigt werden. Weitere Informationen finden Sie unter Verschachtelung von JSON-Daten aufheben und Array explodieren.

Wenn Sie einen Datensatz auswählen, können Sie ihn umbenennen, den Dateityp angeben und die erste Zeile als Kopfzeile identifizieren.

Sie können einen Datensatz, den Sie in mehrere Dateien partitioniert haben, in einem einzigen Importschritt in einem Amazon S3-Bucket importieren.

Um einen Datensatz aus einer einzelnen Datei in Data Wrangler zu importieren, die Sie in Amazon S3 gespeichert haben:
  1. Wenn Sie sich gerade nicht auf der Registerkarte Import befinden, wählen Sie Import aus.

  2. Wählen Sie unter Verfügbar Amazon S3 aus.

  3. Führen Sie unter Tabellen-, Image- oder Zeitreihendaten aus S3 importieren einen der folgenden Schritte aus:

    • Wählen Sie in der Tabellenansicht einen Amazon S3-Bucket aus und navigieren Sie zu der Datei, die Sie importieren.

    • Geben Sie als S3-Quelle einen Amazon S3-Bucket oder eine Amazon S3-URI an und wählen Sie Los aus. Die Amazon S3-URIs können in einem der folgenden Formate vorliegen:

      • s3://DOC-EXAMPLE-BUCKET/example-prefix/example-file

      • example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a -s3alias/datasets/example-file

      • s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix/example-file

  4. Wählen Sie den Datensatz aus, um den Bereich mit den Importeinstellungen zu öffnen.

  5. Wenn Ihre CSV-Datei eine Kopfzeile hat, aktivieren Sie das Kontrollkästchen neben Kopfzeile zur Tabelle hinzufügen.

  6. In der Vorschau-Tabelle sehen Sie eine Vorschau Ihres Datensatzes. Diese Tabelle zeigt bis zu 100 Zeilen.

  7. Überprüfen oder ändern Sie im Bereich Details den Namen und den Dateityp für Ihren Datensatz. Wenn Sie einen Namen hinzufügen, der Leerzeichen enthält, werden diese Leerzeichen beim Import Ihres Datensatzes durch Unterstriche ersetzt.

  8. Geben Sie die Probenahmekonfiguration an, die Sie verwenden möchten.

  9. Wählen Sie Importieren aus.

Multifile Import

Die Anforderungen zum Importieren mehrerer Dateien sind wie folgt:

  • Die Dateien müssen sich im selben Ordner Ihres Amazon S3-Buckets befinden.

  • Die Dateien müssen entweder denselben Header verwenden oder gar keinen Header haben.

Die Dateien müssen eines der folgenden Formate haben:

  • CSV

  • Parquet

  • Optimized Row Columnar (ORC)

  • Image - Data Wrangler verwendet OpenCV zum Importieren von Images. Weitere Informationen zu den unterstützten Image-Formaten finden Sie unter Image-Dateien lesen und schreiben.

Gehen Sie wie folgt vor, um mehrere Dateien zu importieren.

Um einen Datensatz aus mehreren Dateien in Data Wrangler zu importieren, die Sie in einem Amazon S3-Verzeichnis gespeichert haben
  1. Wenn Sie sich gerade nicht auf der Registerkarte Import befinden, wählen Sie Import aus.

  2. Wählen Sie unter Verfügbar Amazon S3 aus.

  3. Führen Sie unter Tabellen-, Image- oder Zeitreihendaten aus S3 importieren einen der folgenden Schritte aus:

    • Wählen Sie in der tabellarischen Ansicht einen Amazon S3-Bucket aus und navigieren Sie zu dem Ordner, der die Dateien enthält, die Sie importieren.

    • Geben Sie als S3-Quelle den Amazon S3-Bucket oder eine Amazon S3-URI mit Ihren Dateien an und wählen Sie Los aus. Die folgenden sind gültige URIs:

      • s3://DOC-EXAMPLE-BUCKET/example-prefix/example-prefix

      • example-access-point-aqfqprnstn7aefdfbarligizwgyfouse1a-s3alias/example-prefix/

      • s3://arn:aws:s3:AWS-Region:111122223333:accesspoint/example-prefix

  4. Wählen Sie den Ordner mit den Dateien aus, die Sie importieren möchten. Jede Datei muss in einem der unterstützten Formate vorliegen. Ihre Dateien müssen denselben Datentyp haben.

  5. Wenn Ihr Ordner CSV-Dateien mit Kopfzeilen enthält, aktivieren Sie das Kontrollkästchen neben Erste Zeile ist Kopfzeile.

  6. Wenn sich Ihre Dateien in anderen, verschachtelten Ordnern befinden, aktivieren Sie das Kontrollkästchen neben Unterverzeichnisse einbeziehen.

  7. (Optional) Wählen Sie Spalte mit Dateinamen hinzufügen und fügen Sie zum Datensatz eine Spalte hinzu, die den Dateinamen für jede Beobachtung zeigt.

  8. (Optional) Standardmäßig zeigt Data Wrangler Ihnen keine Vorschau eines Ordners. Sie können die Vorschau aktivieren, indem Sie auf die blaue Schaltfläche Vorschau aus klicken. Eine Vorschau zeigt die ersten 10 Zeilen der ersten 10 Dateien im Ordner.

  9. Überprüfen oder ändern Sie im Bereich Details den Namen und den Dateityp für Ihren Datensatz. Wenn Sie einen Namen hinzufügen, der Leerzeichen enthält, werden diese Leerzeichen beim Import Ihres Datensatzes durch Unterstriche ersetzt.

  10. Geben Sie die Probenahmekonfiguration an, die Sie verwenden möchten.

  11. Wählen Sie Datensatz importieren aus.

Mit Hilfe von Parametern können Sie auch eine Teilmenge der Dateien importieren, die einem Muster entsprechen. Mithilfe von Parametern können Sie die Dateien, die Sie importieren, selektiver auswählen. Um mit der Verwendung von Parametern zu beginnen, bearbeiten Sie die Datenquelle und wenden Sie sie auf den Pfad an, den Sie zum Importieren der Daten verwenden. Weitere Informationen finden Sie unter Wiederverwenden von Datenabläufe für verschiedene Datensätze.

Daten aus Athena importieren

Verwenden Sie Amazon Athena, um Ihre Daten von Amazon Simple Storage Service (Amazon S3) in Data Wrangler zu importieren. In Athena schreiben Sie Standard-SQL-Abfragen, um die Daten auszuwählen, die Sie aus Amazon S3 importieren. Weitere Informationen finden Sie unter Was ist Amazon Athena?

Mit Hilfe der AWS Management Console können Sie Amazon Athena einrichten. Sie müssen mindestens eine Datenbank in Athena erstellen, bevor Sie Abfragen ausführen können. Weitere Informationen zu den ersten Schritten mit Athena finden Sie unter Erste Schritte.

Athena ist direkt in Data Wrangler integriert. Sie können Athena-Abfragen schreiben, ohne die Benutzeroberfläche von Data Wrangler verlassen zu müssen.

Neben dem Schreiben einfacher Athena-Abfragen in Data Wrangler können Sie auch:

  • Athena-Arbeitsgruppen zur Verwaltung von Abfrageergebnissen verwenden. Weitere Informationen zu Arbeitsgruppen finden Sie unter Abfrageergebnisse verwalten.

  • Lebenszykluskonfigurationen zur Festlegung von Datenaufbewahrungszeiträumen. Weitere Informationen zur Datenspeicherung finden Sie unter Datenaufbewahrungszeitraum festlegen.

In Data Wrangler können Sie Abfragen in Athena vornehmen

Anmerkung

Data Wrangler unterstützt keine Verbundabfragen.

Wenn Sie Athena verwendenAWS Lake Formation, achten Sie darauf, dass Ihre Lake Formation IAM-Berechtigungen die IAM-Berechtigungen für die Datenbank sagemaker_data_wrangler nicht umgehen.

Data Wrangler bietet Ihnen die Möglichkeit, entweder den gesamten Datensatz zu importieren oder eine Stichprobe daraus. Für Athena bietet es die folgenden Optionen für die Probenahme:

  • Keine - Importiert den gesamten Datensatz.

  • Erstes K - Stichprobe der ersten K Zeilen des Datensatzes, wobei K eine von Ihnen angegebene Ganzzahl ist.

  • Randomisiert - Nimmt eine zufällige Stichprobe mit einer von Ihnen angegebenen Größe.

  • Stratifiziert - Entnimmt eine stratifizierte zufällige Stichprobe. Eine stratifizierte Stichprobe behält das Verhältnis der Werte in einer Spalte bei.

Das folgende Verfahren zeigt, wie ein Datensatz von Athena in Data Wrangler importiert wird.

Um einen Datensatz von Athena in Data Wrangler zu importieren
  1. Melden Sie sich bei der Amazon SageMaker-Konsole an.

  2. Wählen Sie Studio.

  3. Wählen Sie App starten.

  4. Wählen Sie in der Auswahlliste Studio aus.

  5. Wählen Sie das Symbol Startseite aus.

  6. Wählen Sie Datenaus.

  7. Wählen Sie Data Wrangler.

  8. Wählen Sie Daten importieren aus.

  9. Wählen Sie unter Verfügbar Amazon Athena aus.

  10. Wählen Sie für Datenkatalog einen Datenkatalog aus.

  11. Wählen Sie von der Auswahlliste Datenbank die Datenbank aus, die Sie abfragen möchten. Wenn Sie eine Datenbank auswählen, können Sie mithilfe der unter Details aufgelisteten Tabellen eine Vorschau aller Tabellen in Ihrer Datenbank anzeigen.

  12. (Optional) Wählen Sie Erweiterte Konfiguration aus.

    1. Wählen Sie eine Arbeitsgruppe aus.

    2. Wenn Ihre Arbeitsgruppe den Amazon S3-Ausgabespeicherort nicht durchgesetzt hat oder wenn Sie keine Arbeitsgruppe verwenden, geben Sie einen Wert für den Amazon S3-Speicherort für die Abfrageergebnisse an.

    3. (Optional) Aktivieren Sie für Datenaufbewahrungsdauer das Kontrollkästchen, um eine Datenaufbewahrungsdauer festzulegen, und geben Sie die Anzahl der Tage an, für die die Daten gespeichert werden sollen, bevor sie gelöscht werden.

    4. (Optional) Data Wrangler speichert die Verbindung standardmäßig. Sie können das Kontrollkästchen deaktivieren und die Verbindung nicht speichern.

  13. Wählen Sie für Probenahme eine Methode zur Probenahme aus. Wählen Sie Keine, um die Probenahme zu deaktivieren.

  14. Geben Sie Ihre Abfrage in den Abfrage-Editor ein und verwenden Sie die Schaltfläche Ausführen, um die Abfrage auszuführen. Nach erfolgreicher Abfrage sehen Sie im Editor eine Vorschau Ihres Ergebnisses.

    Anmerkung

    Salesforce-Daten verwenden den Typ timestamptz. Wenn Sie die Spalte für Zeitstempel abfragen, die Sie aus Salesforce in Athena importiert haben, wandeln Sie die Daten in der Spalte in den Typ timestamp um. Die folgende Abfrage wandelt die Spalte für Zeitstempel in den richtigen Typ um.

    # cast column timestamptz_col as timestamp type, and name it as timestamp_col select cast(timestamptz_col as timestamp) as timestamp_col from table
  15. Um die Ergebnisse Ihrer Abfrage zu importieren, wählen Sie Import aus.

Sobald Sie das obige Verfahren abgeschlossen haben, erscheint der Datensatz, den Sie abgefragt und importiert haben, im Data Wrangler-Ablauf.

Data Wrangler speichert die Verbindungseinstellungen standardmäßig als neue Verbindung. Wenn Sie Ihre Daten importieren, wird die Abfrage, die Sie bereits angegeben haben, als neue Verbindung angezeigt. Die gespeicherten Verbindungen speichern Informationen über die Athena-Arbeitsgruppen und Amazon S3-Buckets, die Sie verwenden. Wenn Sie erneut eine Verbindung zu der Datenquelle herstellen, können Sie die gespeicherte Verbindung auswählen.

Abfrageergebnisse verwalten

Data Wrangler unterstützt die Verwendung von Athena-Arbeitsgruppen zur Verwaltung der Abfrageergebnisse innerhalb eines AWS-Kontos. Sie können für jede Arbeitsgruppe einen Amazon-S3-Ausgabespeicherort angeben. Sie können auch angeben, ob die Ausgabe der Abfrage an verschiedene Amazon S3-Speicherorte gesendet werden kann. Weitere Informationen finden Sie unter Zugriffs- und Kostenkontrolle für Abfragen mit Hilfe von Arbeitsgruppen.

Ihre Arbeitsgruppe ist möglicherweise so konfiguriert, dass sie den Amazon S3-Abfragespeicherort erzwingt. Sie können den Ausgabespeicherort der Abfrageergebnisse für diese Arbeitsgruppen nicht ändern.

Wenn Sie keine Arbeitsgruppe verwenden oder einen Ausgabespeicherort für Ihre Abfragen angeben, verwendet Data Wrangler den standardmäßigen Amazon S3-Bucket in derselben AWS Region, in der sich Ihre Studio-Classic-Instance befindet, um Athena-Abfrageergebnisse zu speichern. Es erstellt temporäre Tabellen in dieser Datenbank, um die Abfrageausgabe in diesen Amazon S3-Bucket zu verschieben. Es löscht diese Tabellen, sobald Daten importiert wurden. Die Datenbank sagemaker_data_wrangler bleibt jedoch bestehen. Weitere Informationen hierzu finden Sie unter Speicher für importierte Daten.

Um Athena-Arbeitsgruppen zu verwenden, richten Sie die IAM-Richtlinie ein, die den Zugriff auf Arbeitsgruppen gewährt. Wenn Sie eine SageMaker-Execution-Role verwenden, empfehlen wir, die Richtlinie zur Rolle hinzuzufügen. Weitere Informationen zu IAM-Richtlinien für Arbeitsgruppen finden Sie unter IAM-Richtlinien für den Zugriff auf Arbeitsgruppen. Beispielrichtlinien für Arbeitsgruppen finden Sie unter Beispielrichtlinien für Arbeitsgruppen.

Datenaufbewahrungszeitraum festlegen

Data Wrangler legt automatisch eine Datenaufbewahrungsdauer für die Abfrageergebnisse fest. Die Ergebnisse werden nach Ablauf der Aufbewahrungsfrist gelöscht. Die Standardaufbewahrungsdauer beträgt z.B. fünf Tage. Die Ergebnisse der Abfrage werden nach fünf Tagen gelöscht. Diese Konfiguration soll Ihnen helfen, Daten zu bereinigen, die Sie nicht mehr verwenden. Durch das Bereinigen Ihrer Daten wird verhindert, dass unbefugte Benutzer darauf zugreifen können. Es hilft auch, die Kosten zum Speichern Ihrer Daten auf Amazon S3 zu kontrollieren.

Wenn Sie keinen Aufbewahrungszeitraum festlegen, bestimmt die Amazon S3-Lebenszykluskonfiguration die Dauer, für die die Objekte gespeichert werden. Die Datenaufbewahrungsrichtlinie, die Sie für die Lebenszykluskonfiguration angegeben haben, entfernt alle Abfrageergebnisse, die älter sind als die von Ihnen angegebene Lebenszykluskonfiguration. Weitere Informationen finden Sie unter Lebenszykluskonfiguration in einem Bucket festlegen.

Data Wrangler verwendet Amazon S3-Lebenszykluskonfigurationen, um die Aufbewahrung und den Ablauf von Daten zu verwalten. Sie müssen Ihrer IAM-Ausführungsrolle von Amazon SageMaker Studio Classic Berechtigungen zum Verwalten von Bucket-Lebenszykluskonfigurationen erteilen. Gehen Sie wie folgt vor, um Berechtigungen zu erteilen.

Gehen Sie wie folgt vor, um Berechtigungen zur Verwaltung der Lebenszykluskonfiguration zu erteilen.

  1. Melden Sie sich bei der AWS Management Console an, und öffnen Sie die IAM-Konsole unter https://console.aws.amazon.com/iam/.

  2. Wählen Sie Roles.

  3. Geben Sie in der Suchleiste die Amazon- SageMaker Ausführungsrolle an, die Amazon SageMaker Studio Classic verwendet.

  4. Wählen Sie die Rolle aus.

  5. Wählen Sie Add permissions (Berechtigungen hinzufügen) aus.

  6. Wählen Sie Inline-Richtlinie erstellen aus.

  7. Geben Sie für Service S3 an und wählen Sie diesen aus.

  8. Wählen Sie im Abschnitt Lesen die Option ausGetLifecycleConfiguration.

  9. Wählen Sie im Abschnitt Schreiben die Option ausPutLifecycleConfiguration.

  10. Wählen Sie für Ressourcen die Option Spezifisch aus.

  11. Wählen Sie für Aktionen das Pfeilsymbol neben Berechtigungsverwaltung aus.

  12. Wählen Sie PutResourcePolicy.

  13. Wählen Sie für Ressourcen die Option Spezifisch aus.

  14. Wählen Sie das Kontrollkästchen neben Alle in diesem Konto aus.

  15. Wählen Sie Richtlinie prüfen.

  16. Geben Sie für Name einen Namen an.

  17. Wählen Sie Richtlinie erstellen aus.

Daten aus Amazon Redshift importieren

Amazon Redshift ist ein vollständig verwalteter Data-Warehouse-Service in Petabytegröße in der Cloud. Der erste Schritt zur Erstellung eines Data Warehouse besteht darin, eine Reihe von Knoten zu starten, die als Amazon-Redshift-Cluster bezeichnet werden. Sobald Sie Ihren Cluster bereitgestellt haben, können Sie Ihren Datensatz hochladen und anschließend Datenanalyseabfragen vornehmen.

Sie können in Data Wrangler eine Verbindung zu einem oder mehreren Amazon Redshift-Clustern herstellen und diese abfragen. Um diese Importoption verwenden zu können, müssen Sie mindestens einen Cluster in Amazon Redshift erstellen. Wie das geht, erfahren Sie unter Erste Schritte mit Amazon Redshift.

Sie können die Ergebnisse Ihrer Amazon Redshift-Abfrage an einem der folgenden Speicherorte ausgeben:

  • Der Standard-Amazon-S3-Bucket

  • Ein Amazon S3-Ausgabespeicherort, den Sie angeben

Sie können entweder den gesamten Datensatz importieren oder eine Stichprobe davon. Für Amazon Redshift bietet es die folgenden Probenahme-Optionen:

  • Keine - Importiert den gesamten Datensatz.

  • Erstes K - Stichprobe der ersten K Zeilen des Datensatzes, wobei K eine von Ihnen angegebene Ganzzahl ist.

  • Randomisiert - Nimmt eine zufällige Stichprobe mit einer von Ihnen angegebenen Größe.

  • Stratifiziert - Entnimmt eine stratifizierte zufällige Stichprobe. Eine stratifizierte Stichprobe behält das Verhältnis der Werte in einer Spalte bei.

Der standardmäßige Amazon S3-Bucket befindet sich in derselben AWS Region, in der sich Ihre Studio-Classic-Instance zum Speichern von Amazon-Redshift-Abfrageergebnissen befindet. Weitere Informationen finden Sie unter Speicher für importierte Daten.

Für den standardmäßigen Amazon S3-Bucket oder den von Ihnen angegebenen Bucket haben Sie die folgenden Verschlüsselungsoptionen:

  • Die standardmäßige AWS service-seitige Verschlüsselung mit einem von Amazon S3 verwalteten Schlüssel (SSE-S3)

  • Ein AWS Key Management Service (AWS KMS) Schlüssel, den Sie angeben

Ein AWS KMS Schlüssel ist ein Verschlüsselungsschlüssel, den Sie erstellen und verwalten. Weitere Informationen zu KMS-Schlüsseln finden Sie unter AWS Key Management Service.

Sie können einen AWS KMS Schlüssel entweder mit dem Schlüssel-ARN oder dem ARN Ihres AWS Kontos angeben.

Wenn Sie die von IAM verwaltete Richtlinie verwendenAmazonSageMakerFullAccess, um einer Rolle die Berechtigung zur Verwendung von Data Wrangler in Studio Classic zu erteilen, muss Ihr Datenbankbenutzername das Präfix habensagemaker_access.

Gehen Sie wie folgt vor, um zu erfahren, wie Sie einen neuen Cluster hinzufügen.

Anmerkung

Data Wrangler verwendet die Amazon-Redshift-Daten-API mit temporären Anmeldeinformationen. Weitere Informationen zu dieser API finden Sie unter Verwendung des Amazon-Redshift-Daten-API im Amazon Redshift Management-Leitfaden.

So stellen Sie eine Verbindung zu einem Amazon-Redshift-Cluster her
  1. Melden Sie sich bei der Amazon SageMaker-Konsole an.

  2. Wählen Sie Studio.

  3. Wählen Sie App starten.

  4. Wählen Sie in der Auswahlliste Studio aus.

  5. Wählen Sie das Symbol Startseite aus.

  6. Wählen Sie Datenaus.

  7. Wählen Sie Data Wrangler.

  8. Wählen Sie Daten importieren aus.

  9. Wählen Sie unter Verfügbar Amazon Athena aus.

  10. Wählen Sie Amazon Redshift aus.

  11. Wählen Sie Temporäre Anmeldeinformationen (IAM) als Typ aus.

  12. Geben Sie einen Verbindungsnamen ein. Dies ist ein Name, der von Data Wrangler verwendet wird, um diese Verbindung zu identifizieren.

  13. Geben Sie die Cluster-ID ein, um anzugeben, zu welchem Cluster Sie eine Verbindung herstellen möchten. Hinweis: Geben Sie nur die Cluster-ID und nicht den vollständigen Endpunkt des Amazon-Redshift-Clusters ein.

  14. Geben Sie den Datenbanknamen der Datenbank ein, mit der Sie eine Verbindung herstellen möchten.

  15. Geben Sie einen Datenbankbenutzer ein, um den Benutzer zu identifizieren, den Sie für die Verbindung mit der Datenbank verwenden möchten.

  16. Geben Sie für IAM-Rolle entladen den IAM-Rollen-ARN der Rolle ein, die der Amazon-Redshift-Cluster annehmen soll, um Daten in Amazon S3 zu verschieben und zu schreiben. Weitere Informationen zu dieser Rolle finden Sie unter Autorisierung von Amazon Redshift für den Zugriff auf andere AWS Services in Ihrem Namen im Amazon Redshift Management-Leitfaden.

  17. Wählen Sie Connect aus.

  18. (Optional) Geben Sie für den Amazon S3-Ausgabespeicherort den S3-URI zum Speichern der Abfrageergebnisse an.

  19. (Optional) Geben Sie für die KMS-Schlüssel-ID den ARN des AWS KMS Schlüssels oder Alias an. Die folgende Abbildung zeigt Ihnen, wo Sie jeden dieser Schlüssel in der AWS Management Console finden.

Die folgende Abbildung zeigt alle Felder aus dem vorangehenden Verfahren.

Sobald Ihre Verbindung erfolgreich hergestellt wurde, erscheint sie als Datenquelle unter Datenimport. Wählen Sie diese Datenquelle aus, um Ihre Datenbank abzufragen und Daten zu importieren.

Gehen Sie wie folgt vor, um Daten aus Amazon Redshift abzufragen und zu importieren
  1. Wählen Sie aus Datenquellen die Verbindung aus, über die Sie die Abfrage vornehmen möchten.

  2. Wählen Sie ein Schema aus. Weitere Informationen zu Amazon Redshift-Schemata finden Sie unter Schemata im Entwicklerhandbuch für Amazon Redshift-Datenbanken.

  3. (Optional) Geben Sie unter Erweiterte Konfiguration die Probenahme-Methode an, die Sie verwenden möchten.

  4. Geben Sie Ihre Abfrage in den Abfrage-Editor ein und wählen Sie Ausführen, um die Abfrage auszuführen. Nach erfolgreicher Abfrage sehen Sie im Editor eine Vorschau Ihres Ergebnisses.

  5. Wählen Sie Datensatz importieren aus, um den abgefragten Datensatz zu importieren.

  6. Geben Sie einen Datensatznamen ein. Wenn Sie einen Datensatznamen hinzufügen, der Leerzeichen enthält, werden diese Leerzeichen beim Import Ihres Datensatzes durch Unterstriche ersetzt.

  7. Wählen Sie Hinzufügen aus.

Gehen Sie wie folgt vor, um einen Datensatz zu bearbeiten.

  1. Navigieren Sie zu Ihrem Data Wrangler-Ablauf.

  2. Wählen Sie das + neben Quelle - Gesampelt.

  3. Ändern Sie die importierten Daten.

  4. Wählen Sie Anwenden aus.

Daten aus Amazon EMR importieren

Sie können Amazon EMR als Datenquelle für Ihren Amazon- SageMaker Data-Wrangler-Flow verwenden. Amazon EMR ist eine verwaltete Cluster-Plattform, mit der Sie große Datenmengen verarbeiten und analysieren können. Weitere Informationen über Amazon EMR finden Sie unter Was ist Amazon EMR? Um einen Datensatz aus EMR zu importieren, stellen Sie eine Verbindung dazu her und nehmen Sie eine Abfrage vor.

Wichtig

Sie müssen die folgenden Voraussetzungen erfüllen, um eine Verbindung mit einem Amazon EMR-Cluster herzustellen:

Voraussetzungen
  • Netzwerkkonfigurationen
    • Sie haben eine Amazon VPC in der Region, die Sie zum Starten von Amazon SageMaker Studio Classic und Amazon EMR verwenden.

    • Sowohl Amazon EMR als auch Amazon SageMaker Studio Classic müssen in privaten Subnetzen gestartet werden. Sie können sich im selben oder in verschiedenen Subnetzen befinden.

    • Amazon SageMaker Studio Classic muss sich im Nur-VPC-Modus befinden.

      Weitere Informationen zum Erstellen einer VPC finden Sie unter Erstellen einer VPC.

      Weitere Informationen zum Erstellen einer VPC finden Sie unter Verbinden von SageMaker Studio Classic Notebooks in einer VPC mit externen Ressourcen.

    • Die Amazon EMR-Cluster, die Sie ausführen, müssen sich in derselben Amazon-VPC befinden.

    • Die Amazon EMR-Cluster und die Amazon VPC müssen sich im selben AWS Konto befinden.

    • Auf Ihren Amazon EMR-Clustern läuft Hive oder Presto.

      • Hive-Cluster müssen eingehenden Datenverkehr von Studio Classic-Sicherheitsgruppen auf Port 10000 zulassen.

      • Presto-Cluster müssen eingehenden Datenverkehr von Studio Classic-Sicherheitsgruppen auf Port 8889 zulassen.

        Anmerkung

        Die Portnummer ist für Amazon EMR-Cluster, die IAM-Rollen verwenden, unterschiedlich. Weitere Informationen finden Sie am Ende des Abschnitts mit den Voraussetzungen.

  • SageMaker Studio Classic
    • Amazon SageMaker Studio Classic muss Jupyter Lab Version 3 ausführen. Informationen zur Aktualisierung der Jupyter-Lab-Version finden Sie unter. Anzeigen und Aktualisieren der JupyterLab Version einer Anwendung über die Konsole

    • Amazon SageMaker Studio Classic verfügt über eine IAM-Rolle, die den Benutzerzugriff steuert. Die Standard-IAM-Rolle, die Sie zum Ausführen von Amazon SageMaker Studio Classic verwenden, verfügt über keine Richtlinien, die Ihnen Zugriff auf Amazon-EMR-Cluster gewähren können. Sie müssen die Berechtigungen erteilende Richtlinie an die IAM-Rolle anhängen. Weitere Informationen finden Sie unter Die Auffindbarkeit von Amazon EMR-Clustern konfigurieren (für Administratoren).

    • Der IAM-Rolle muss außerdem die folgende Richtlinie angefügt sein secretsmanager:PutResourcePolicy.

    • Wenn Sie eine Studio Classic-Domäne verwenden, die Sie bereits erstellt haben, stellen Sie sicher, dass sie sich im Nur-VPC-Modus AppNetworkAccessType befindet. Hinweise zur Aktualisierung einer Domäne zur Verwendung des Nur-VPC-Modus finden Sie unter Studio SageMaker Classic herunterfahren und aktualisieren.

  • Amazon EMR-Cluster
    • Sie müssen Hive oder Presto in Ihrem Cluster installiert haben.

    • Amazon EMR muss Version 5.5.0 oder höher sein.

      Anmerkung

      Amazon EMR unterstützt automatisches Beenden. Automatisches Beenden verhindert, dass inaktive Cluster ausgeführt werden, und verhindert, dass Ihnen Kosten entstehen. Die folgenden Versionen unterstützen automatisches Beenden:

      • Für 6.x-Versionen Version 6.1.0 oder später.

      • Für 5.x-Versionen Version 5.30.0 oder später.

  • Amazon EMR-Cluster mit IAM-Laufzeitrollen

Eine Amazon VPC ist ein virtuelles Netzwerk, das logisch von anderen Netzwerken in der AWS Cloud isoliert ist. Amazon SageMaker Studio Classic und Ihr Amazon-EMR-Cluster existieren nur innerhalb der Amazon VPC.

Gehen Sie wie folgt vor, um Amazon SageMaker Studio Classic in einer Amazon VPC zu starten.

Gehen Sie wie folgt vor, um Studio Classic innerhalb einer VPC zu starten.

  1. Navigieren Sie zur - SageMaker Konsole unter https://console.aws.amazon.com/sagemaker/.

  2. Wählen Sie SageMaker Studio Classic starten aus.

  3. Wählen Sie Standardeinstellung.

  4. Wählen Sie für Standardausführungsrolle die IAM-Rolle aus, um Studio Classic einzurichten.

  5. Wählen Sie die VPC aus, auf der Sie die Amazon EMR-Cluster gestartet haben.

  6. Wählen Sie als Subnetz ein privates Subnetz aus.

  7. Geben Sie für Sicherheitsgruppe(n) die Sicherheitsgruppen an, die Sie zwischen Ihren VPC zur Steuerung verwenden.

  8. Wählen Sie Nur VPC.

  9. (Optional) AWS verwendet einen Standard-Verschlüsselungsschlüssel. Sie können einen AWS Key Management Service Schlüssel zur Verschlüsselung Ihrer Daten angeben.

  10. Wählen Sie Weiter aus.

  11. Wählen Sie unter Studio-Einstellungen die Konfigurationen aus, die am besten für Sie geeignet sind.

  12. Wählen Sie Weiter, um die SageMaker Canvas-Einstellungen zu überspringen.

  13. Wählen Sie Weiter, um die RStudio-Einstellungen zu überspringen.

Wenn Sie noch keinen Amazon EMR-Cluster haben, können Sie mit dem folgenden Verfahren einen solchen erstellen. Weitere Informationen zu Amazon EMR finden Sie unter Was ist Amazon EMR?

Gehen Sie wie folgt vor, um einen Cluster zu erstellen.

  1. Navigieren Sie zur AWS Management Console.

  2. Geben Sie in die Suchleiste Amazon EMR ein.

  3. Wählen Sie Cluster erstellen.

  4. Geben Sie als Cluster-Name den Namen Ihres Clusters ein.

  5. Wählen Sie als Veröffentlichung die veröffentlichte Version des Clusters aus.

    Anmerkung

    Amazon EMR unterstützt die automatische Beenden für die folgenden Versionen:

    • Für 6.x-Versionen: Versionen 6.1.0 oder später

    • Für 5.x-Versionen die Versionen 5.30.0 oder später

    Automatisches Beenden verhindert, dass inaktive Cluster ausgeführt werden, und verhindert, dass Ihnen Kosten entstehen.

  6. (Optional) Wählen Sie für Anwendungen Presto aus.

  7. Wählen Sie die Anwendung aus, die Sie auf dem Cluster ausführen.

  8. Geben Sie unter Netzwerk für Hardwarekonfiguration die Hardwarekonfigurationseinstellungen an.

    Wichtig

    Wählen Sie unter Netzwerk die VPC aus, auf der Amazon SageMaker Studio Classic ausgeführt wird, und wählen Sie ein privates Subnetz aus.

  9. Geben Sie unter Sicherheit und Zugriff die Sicherheitseinstellungen an.

  10. Wählen Sie Erstellen.

Ein Tutorial zur Erstellung eines Amazon EMR-Clusters finden Sie unter Erste Schritte mit Amazon EMR. Informationen zu bewährten Methoden für die Konfiguration eines Clusters finden Sie unter Überlegungen und bewährte Methoden.

Anmerkung

Für bewährte Methoden für die Sicherheit kann Data Wrangler nur Verbindungen zu VPCs in privaten Subnetzen herstellen. Sie können keine Verbindung zum Hauptknoten herstellen, wenn Sie für Ihre Amazon EMR-Instances nicht AWS Systems Manager verwenden. Weitere Informationen finden Sie unter Sicherung des Zugriffs auf EMR-Cluster mithilfe von AWS Systems Manager.

Sie können derzeit die folgenden Methoden verwenden, um auf einen Amazon EMR-Cluster zuzugreifen:

  • Keine Authentifizierung

  • Lightweight Directory Access Protocol (LDAP)

  • IAM (Laufzeitrolle)

Wenn Sie keine Authentifizierung oder LDAP verwenden, müssen Sie ggf. mehrere Cluster und Amazon EC2-Instance-Profile erstellen. Wenn Sie Administrator sind, müssen Sie ggf. Benutzergruppen mit unterschiedlichen Zugriffsebenen auf die Daten anlegen. Diese Methoden können zu einem Verwaltungsaufwand führen, der die Verwaltung Ihrer Benutzer erschwert.

Wir empfehlen die Verwendung einer IAM-Laufzeitrolle, mit der sich mehrere Benutzer mit demselben Amazon EMR-Cluster verbinden können. Eine Laufzeitrolle ist eine IAM-Rolle, die Sie einem Benutzer zuweisen können, der eine Verbindung zu einem Amazon EMR-Cluster herstellt. Sie können die IAM-Laufzeitrolle so konfigurieren, dass sie über Berechtigungen verfügt, die für jede Benutzergruppe spezifisch sind.

Verwenden Sie die folgenden Abschnitte, um einen Presto- oder Hive Amazon EMR-Cluster mit aktiviertem LDAP zu erstellen.

Presto
Wichtig

Um AWS Glue als Metastore für Presto-Tabellen zu verwenden, wählen Sie Verwendung für Presto-Tabellen-Metadaten aus, um die Ergebnisse Ihrer Amazon EMR-Abfragen in einem AWS Glue Datenkatalog zu speichern, wenn Sie einen EMR-Cluster starten. Wenn Sie die Abfrageergebnisse in einem AWS Glue Datenkatalog speichern, können Sie Gebühren sparen.

Um große Datensätze auf Amazon EMR-Clustern abzufragen, müssen Sie zur Presto-Konfigurationsdatei auf Ihren Amazon EMR-Clustern die folgenden Eigenschaften hinzufügen:

[{"classification":"presto-config","properties":{ "http-server.max-request-header-size":"5MB", "http-server.max-response-header-size":"5MB"}}]

Sie können die Einstellungen für die Konfiguration auch ändern, wenn Sie den Amazon EMR-Cluster starten.

Die Konfigurationsdatei für Ihren Amazon EMR-Cluster befindet sich unter dem folgenden Pfad: /etc/presto/conf/config.properties.

Gehen Sie wie folgt vor, um einen Presto-Cluster mit aktiviertem LDAP zu erstellen.

Gehen Sie wie folgt vor, um einen Cluster zu erstellen.

  1. Navigieren Sie zur AWS Management Console.

  2. Geben Sie in die Suchleiste Amazon EMR ein.

  3. Wählen Sie Cluster erstellen.

  4. Geben Sie als Cluster-Name den Namen Ihres Clusters ein.

  5. Wählen Sie als Veröffentlichung die veröffentlichte Version des Clusters aus.

    Anmerkung

    Amazon EMR unterstützt die automatische Beenden für die folgenden Versionen:

    • Für 6.x-Versionen: Versionen 6.1.0 oder später

    • Für 5.x-Versionen die Versionen 5.30.0 oder später

    Durch die automatische Beendigung wird verhindert, dass inaktive Cluster ausgeführt werden, damit Ihnen keine Kosten entstehen.

  6. Wählen Sie die Anwendung aus, die Sie auf dem Cluster ausführen.

  7. Geben Sie unter Netzwerk für Hardwarekonfiguration die Hardwarekonfigurationseinstellungen an.

    Wichtig

    Wählen Sie für Netzwerk die VPC aus, auf der Amazon SageMaker Studio Classic ausgeführt wird, und wählen Sie ein privates Subnetz aus.

  8. Geben Sie unter Sicherheit und Zugriff die Sicherheitseinstellungen an.

  9. Wählen Sie Erstellen.

Hive
Wichtig

Um AWS Glue als Metastore für Hive-Tabellen zu verwenden, wählen Sie Verwendung für Hive-Tabellen-Metadaten aus, um die Ergebnisse Ihrer Amazon EMR-Abfragen in einem AWS Glue Datenkatalog zu speichern, wenn Sie einen EMR-Cluster starten. Wenn Sie die Abfrageergebnisse in einem AWS Glue Datenkatalog speichern, können Sie Gebühren sparen.

Um große Datensätze auf Amazon EMR-Clustern abfragen zu können, müssen Sie zur Hive-Konfigurationsdatei auf Ihren Amazon EMR-Clustern die folgenden Eigenschaften hinzufügen:

[{"classification":"hive-site", "properties" :{"hive.resultset.use.unique.column.names":"false"}}]

Sie können die Einstellungen für die Konfiguration auch ändern, wenn Sie den Amazon EMR-Cluster starten.

Die Konfigurationsdatei für Ihren Amazon EMR-Cluster befindet sich unter dem folgenden Pfad: /etc/hive/conf/hive-site.xml. Sie können die folgende Eigenschaft angeben und den Cluster neu starten:

<property> <name>hive.resultset.use.unique.column.names</name> <value>false</value> </property>

Gehen Sie wie folgt vor, um einen Hive-Cluster mit aktiviertem LDAP zu erstellen.

Gehen Sie wie folgt vor, um einen Hive-Cluster mit aktiviertem LDAP zu erstellen.

  1. Navigieren Sie zur AWS Management Console.

  2. Geben Sie in die Suchleiste Amazon EMR ein.

  3. Wählen Sie Cluster erstellen.

  4. Wählen Sie Go to advanced options (Zu erweiterten Optionen navigieren) aus.

  5. Wählen Sie für Release eine Amazon EMR-Release-Version aus.

  6. Die Hive-Konfigurationsoption ist standardmäßig ausgewählt. Achten Sie darauf, dass neben der Hive-Option ein Kontrollkästchen erscheint.

  7. (Optional) Sie können auch Presto als Konfigurationsoption auswählen, um sowohl Hive als auch Presto auf Ihrem Cluster zu aktivieren.

  8. (Optional) Wählen Sie Verwendung für Hive-Tabellenmetadaten aus, um die Ergebnisse Ihrer Amazon EMR-Abfragen in einem AWS Glue Datenkatalog zu speichern. Wenn Sie die Abfrageergebnisse in einem AWS Glue Katalog speichern, können Sie Gebühren sparen. Weitere Informationen finden Sie unter Verwendung des AWS Glue Datenkatalogs als Metaspeicher für Hive.

    Anmerkung

    Zum Speichern der Abfrageergebnisse in einem Datenkatalog ist Amazon EMR Version 5.8.0 oder später erforderlich.

  9. Geben Sie unter Konfiguration eingeben den folgenden JSON an:

    [ { "classification": "hive-site", "properties": { "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org", "hive.server2.authentication": "LDAP", "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389" } } ]
    Anmerkung

    Als bewährte Sicherheitsmethode empfehlen wir, SSL für zu aktivieren, HiveServer indem wir einige Eigenschaften im vorherigen Hive-Site-JSON hinzufügen. Weitere Informationen finden Sie unter Aktivieren von SSL auf HiveServer2.

  10. Geben Sie die verbleibenden Cluster-Einstellungen an und erstellen Sie einen Cluster.

Verwenden Sie die folgenden Abschnitte, um die LDAP-Authentifizierung für Amazon EMR-Cluster zu verwenden, die Sie bereits erstellt haben.

LDAP for Presto

Die Verwendung von LDAP auf einem Cluster, auf dem Presto läuft, erfordert Zugriff auf den Presto-Koordinator über HTTPS. Gehen Sie wie folgt vor, um den Zugriff zu gewähren:

  • Aktivieren Sie den Zugriff an Port 636

  • Aktivieren Sie SSL für den Presto-Koordinator

Verwenden Sie die folgende Vorlage, um Presto zu konfigurieren:

- Classification: presto-config ConfigurationProperties: http-server.authentication.type: 'PASSWORD' http-server.https.enabled: 'true' http-server.https.port: '8889' http-server.http.port: '8899' node-scheduler.include-coordinator: 'true' http-server.https.keystore.path: '/path/to/keystore/path/for/presto' http-server.https.keystore.key: 'keystore-key-password' discovery.uri: 'http://master-node-dns-name:8899' - Classification: presto-password-authenticator ConfigurationProperties: password-authenticator.name: 'ldap' ldap.url: !Sub 'ldaps://ldap-server-dns-name:636' ldap.user-bind-pattern: "uid=${USER},dc=example,dc=org" internal-communication.authentication.ldap.user: "ldap-user-name" internal-communication.authentication.ldap.password: "ldap-password"

Informationen zum Einrichten von LDAP in Presto finden Sie in den folgenden Ressourcen:

Anmerkung

Aus Sicherheitsgründen empfehlen wir, SSL für Presto zu aktivieren. Weitere Informationen finden Sie unter Sichere interne Kommunikation.

LDAP for Hive

Gehen Sie wie folgt vor, um LDAP für Hive für einen von Ihnen erstellten Cluster zu verwenden, Konfigurieren Sie eine Instance-Gruppe in der Konsole neu.

Sie geben den Namen des Clusters an, mit dem Sie eine Verbindung herstellen.

[ { "classification": "hive-site", "properties": { "hive.server2.authentication.ldap.baseDN": "dc=example,dc=org", "hive.server2.authentication": "LDAP", "hive.server2.authentication.ldap.url": "ldap://ldap-server-dns-name:389" } } ]

Gehen Sie wie folgt vor, um Daten aus einem Cluster zu importieren.

Gehen Sie wie folgt vor, um Daten aus einem Cluster zu importieren.

  1. Öffnen Sie einen Data Wrangler-Ablauf.

  2. Wählen Sie Create Connection (Verbindung erstellen) aus.

  3. Wählen Sie Amazon EMR aus.

  4. Führen Sie eine der folgenden Aufgaben aus.

    • (Optional) Geben Sie für Secrets ARN die Amazon-Ressourcennummer (ARN) der Datenbank innerhalb des Clusters an. Secrets geben zusätzliche Sicherheit. Weitere Informationen über Geheimnisse finden Sie unter Was ist AWS Secrets Manager? Informationen zum Erstellen eines Geheimnisses für Ihren Cluster finden Sie unter Ein AWS Secrets Manager Secret für Ihren Cluster erstellen.

      Wichtig

      Sie müssen ein Secret angeben, wenn Sie für die Authentifizierung eine IAM-Laufzeitrolle verwenden.

    • Wählen Sie aus der Dropdown-Tabelle einen Cluster aus.

  5. Wählen Sie Weiter aus.

  6. Wählen Sie für Endpunkt für example-cluster-name Cluster auswählen eine Abfrage-Engine aus.

  7. (Optional) Wählen Sie Verbindung speichern aus.

  8. Wählen Sie Weiter aus, wählen Sie Anmeldung und wählen Sie dann eine der folgenden Optionen aus:

    • Keine Authentifizierung

    • LDAP

    • IAM

  9. Geben Sie für Anmeldung beim example-cluster-name Cluster den Benutzernamen und das Passwort für den Cluster an.

  10. Wählen Sie Connect aus.

  11. Geben Sie im Abfrage-Editor eine SQL-Abfrage an.

  12. Wählen Sie Ausführen aus.

  13. Wählen Sie Importieren aus.

Ein AWS Secrets Manager Secret für Ihren Cluster erstellen

Wenn Sie für den Zugriff auf Ihren Amazon EMR-Cluster eine IAM-Laufzeitrolle verwenden, müssen Sie die Anmeldeinformationen, die Sie für den Zugriff auf Amazon EMR verwenden, als Secrets-Manager-Secret speichern. Sie speichern alle Anmeldeinformationen, die Sie für den Zugriff auf den Cluster verwenden, innerhalb des Secrets.

Sie müssen die folgenden Informationen im Secret speichern:

  • JDBC-Endpunkt - jdbc:hive2://

  • DNS-Name - Der DNS-Name Ihres Amazon-EMR-Clusters. Dies ist entweder der Endpunkt für den Primärknoten oder der Hostname.

  • Port – 8446

Auch die folgenden Zusatzinformationen können Sie innerhalb des Secrets speichern:

  • IAM-Rolle - Die IAM-Rolle, die Sie für den Zugriff auf den Cluster verwenden. Data Wrangler verwendet standardmäßig Ihre SageMaker Ausführungsrolle.

  • Truststore-Pfad - Standardmäßig erstellt Data Wrangler einen Truststore-Pfad für Sie. Außerdem können Sie einen eigenen Truststore-Pfad verwenden. Weitere Informationen zu Truststore-Pfaden finden Sie unter Verschlüsselung während der Übertragung in HiveServer2.

  • Truststore-Passwort - Standardmäßig erstellt Data Wrangler ein Truststore-Passwort für Sie. Außerdem können Sie einen eigenen Truststore-Pfad verwenden. Weitere Informationen zu Truststore-Pfaden finden Sie unter Verschlüsselung während der Übertragung in HiveServer2.

Gehen Sie wie folgt vor, um die Anmeldeinformationen in einem Secrets-Manager-Secret zu speichern.

Gehen Sie wie folgt vor, um Ihre Anmeldeinformationen als Secret zu speichern.

  1. Navigieren Sie zur AWS Management Console.

  2. Geben Sie im Suchfeld Secrets Manager an.

  3. Wählen Sie AWS Secrets Manager.

  4. Wählen Sie Store a new secret (Ein neues Secret speichern).

  5. Als Secret-Typ wählen Sie Anderer Secret-Typ aus.

  6. Wählen Sie unter Schlüssel/Wert-Paare die Option Klartext aus.

  7. Für Cluster, auf denen Hive läuft, können Sie für die IAM-Authentifizierung die folgende Vorlage verwenden.

    {"jdbcURL": "" "iam_auth": {"endpoint": "jdbc:hive2://", #required "dns": "ip-xx-x-xxx-xxx.ec2.internal", #required "port": "10000", #required "cluster_id": "j-xxxxxxxxx", #required "iam_role": "arn:aws:iam::xxxxxxxx:role/xxxxxxxxxxxx", #optional "truststore_path": "/etc/alternatives/jre/lib/security/cacerts", #optional "truststore_password": "changeit" #optional }}
    Anmerkung

    Wenn Sie Ihre Daten importiert haben, wenden Sie Transformationen darauf an. Anschließend exportieren Sie die so transformierten Daten an einen bestimmten Speicherort. Wenn Sie ein Jupyter-Notebook verwenden, um Ihre transformierten Daten nach Amazon S3 zu exportieren, müssen Sie den im vorangehenden Beispiel angegebenen Truststore-Pfad verwenden.

Ein Secrets-Manager-Secret speichert die JDBC-URL des Amazon EMR-Clusters als Secret. Die Verwendung eines Secrets ist sicherer als die direkte Eingabe Ihrer Anmeldeinformationen.

Gehen Sie wie folgt vor, um die JDBC-URL als Geheimnis zu speichern.

Gehen Sie wie folgt vor, um die JDBC-URL als Geheimnis zu speichern.

  1. Navigieren Sie zur AWS Management Console.

  2. Geben Sie im Suchfeld Secrets Manager an.

  3. Wählen Sie AWS Secrets Manager.

  4. Wählen Sie Store a new secret (Ein neues Secret speichern).

  5. Als Secret-Typ wählen Sie Anderer Secret-Typ aus.

  6. Geben Sie für Schlüssel/Wert-Paare jdbcURL als Schlüssel und eine gültige JDBC-URL als Wert an.

    Das Format einer gültigen JDBC-URL hängt davon ab, ob Sie die Authentifizierung verwenden und ob Sie Hive oder Presto als Abfrage-Engine verwenden. Die folgende Liste zeigt die gültigen JBDC-URL-Formate für die verschiedenen möglichen Konfigurationen.

    • Hive, keine Authentifizierung - jdbc:hive2://emr-cluster-master-public-dns:10000/;

    • Hive, LDAP-Authentifizierung - jdbc:hive2://emr-cluster-master-public-dns-name:10000/;AuthMech=3;UID=david;PWD=welcome123;

    • Bei Hive mit aktiviertem SSL hängt das JDBC-URL-Format davon ab, ob Sie für die TLS-Konfiguration eine Java-Keystore-Datei verwenden. Die Java-Keystore-Datei hilft dabei, die Identität des Hauptknotens des Amazon EMR-Clusters zu überprüfen. Um eine Java-Keystore-Datei zu verwenden, generieren Sie diese auf einem EMR-Cluster und laden Sie sie auf Data Wrangler hoch. Verwenden Sie den folgenden Befehl auf dem Amazon EMR-Cluster, keytool -genkey -alias hive -keyalg RSA -keysize 1024 -keystore hive.jks, um eine Datei zu generieren. Informationen zum Ausführen von Befehlen auf einem Amazon EMR-Cluster finden Sie unter Zugriffs auf EMR-Cluster sichern mithilfe von AWS Systems Manager. Um eine Datei hochzuladen, wählen Sie links auf der Navigationsleiste der Data Wrangler-Benutzeroberfläche den Aufwärtspfeil.

      Im Folgenden sind die gültigen JDBC-URL-Formate für Hive mit aktiviertem SSL aufgeführt:

      • Ohne Java-Keystore-Datei - jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;AllowSelfSignedCerts=1;

      • Mit Java-Keystore-Datei - jdbc:hive2://emr-cluster-master-public-dns:10000/;AuthMech=3;UID=user-name;PWD=password;SSL=1;SSLKeyStore=/home/sagemaker-user/data/Java-keystore-file-name;SSLKeyStorePwd=Java-keystore-file-passsword;

    • Presto, keine Authentifizierung – jdbc:presto://emr-cluster-master-public-dns :8889/;

    • Bei Presto mit aktivierter LDAP-Authentifizierung und SSL hängt das JDBC-URL-Format davon ab, ob Sie für die TLS-Konfiguration eine Java-Keystore-Datei verwenden. Die Java-Keystore-Datei hilft dabei, die Identität des Hauptknotens des Amazon EMR-Clusters zu überprüfen. Um eine Java-Keystore-Datei zu verwenden, generieren Sie diese auf einem EMR-Cluster und laden Sie sie auf Data Wrangler hoch. Um eine Datei hochzuladen, wählen Sie links auf der Navigationsleiste der Data Wrangler-Benutzeroberfläche den Aufwärtspfeil. Informationen zum Erstellen einer Java-Keystore-Datei für Presto finden Sie unter Java-Keystore-Datei für TLS. Informationen zum Ausführen von Befehlen auf einem Amazon EMR-Cluster finden Sie unter Zugriffs auf EMR-Cluster sichern mithilfe von AWS Systems Manager.

      • Ohne Java-Keystore-Datei - jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;UID=user-name;PWD=password;AllowSelfSignedServerCert=1;AllowHostNameCNMismatch=1;

      • Mit Java-Keystore-Datei - jdbc:presto://emr-cluster-master-public-dns:8889/;SSL=1;AuthenticationType=LDAP Authentication;SSLTrustStorePath=/home/sagemaker-user/data/Java-keystore-file-name;SSLTrustStorePwd=Java-keystore-file-passsword;UID=user-name;PWD=password;

Während des Importierens von Daten aus einem Amazon-EMR-Cluster können Probleme auftreten. Informationen zur Fehlerbehebung finden Sie unter Beheben von Problemen mit Amazon EMR.

Daten aus Databricks importieren (JDBC)

Sie können Databricks als Datenquelle für Ihren Amazon- SageMaker Data-Wrangler-Flow verwenden. Um einen Datensatz aus Databricks zu importieren, verwenden Sie die JDBC-Importfunktion (Java Database Connectivity), um auf Ihre Databricks-Datenbank zuzugreifen. Sobald Sie die Datenbank öffnen, geben Sie eine SQL-Abfrage an, um die Daten abzurufen und zu importieren.

Wir gehen davon aus, dass Sie einen laufenden Databricks-Cluster haben und dass Sie Ihren JDBC-Treiber entsprechend konfiguriert haben. Weitere Informationen finden Sie auf den folgenden Seiten mit der Dokumentation zu Databricks:

Data Wrangler speichert Ihre JDBC-URL in AWS Secrets Manager. Sie müssen Ihrer IAM-Ausführungsrolle von Amazon SageMaker Studio Classic Berechtigungen zur Verwendung von Secrets Manager erteilen. Gehen Sie wie folgt vor, um Berechtigungen zu erteilen.

Gehen Sie wie folgt vor, um Secrets Manager Berechtigungen zu erteilen.

  1. Melden Sie sich bei der AWS Management Console an, und öffnen Sie die IAM-Konsole unter https://console.aws.amazon.com/iam/.

  2. Wählen Sie Roles.

  3. Geben Sie in der Suchleiste die Amazon- SageMaker Ausführungsrolle an, die Amazon SageMaker Studio Classic verwendet.

  4. Wählen Sie die Rolle aus.

  5. Wählen Sie Add permissions (Berechtigungen hinzufügen) aus.

  6. Wählen Sie Inline-Richtlinie erstellen aus.

  7. Geben Sie für Service Secrets Manager an und wählen Sie ihn aus.

  8. Wählen Sie für Aktionen das Pfeilsymbol neben Berechtigungsverwaltung aus.

  9. Wählen Sie PutResourcePolicy.

  10. Wählen Sie für Ressourcen die Option Spezifisch aus.

  11. Wählen Sie das Kontrollkästchen neben Alle in diesem Konto aus.

  12. Wählen Sie Richtlinie prüfen.

  13. Geben Sie für Name einen Namen an.

  14. Wählen Sie Richtlinie erstellen aus.

Sie können Partitionen verwenden, um Ihre Daten schneller zu importieren. Mit Partitionen kann Data Wrangler die Daten parallel verarbeiten. Standardmäßig verwendet Data Wrangler 2 Partitionen. In den meisten Anwendungsfällen bieten Ihnen 2 Partitionen nahezu optimale Datenverarbeitungsgeschwindigkeiten.

Wenn Sie mehr als 2 Partitionen angeben möchten, können Sie auch eine Spalte angeben, um die Daten zu partitionieren. Die Werte in der Spalte müssen vom Typ „Numerisch“ oder „Datum“ sein.

Wir empfehlen, Partitionen nur dann zu verwenden, wenn Sie die Struktur der Daten und deren Verarbeitung kennen.

Sie können entweder den gesamten Datensatz importieren oder eine Stichprobe davon. Für eine Databricks-Datenbank werden die folgenden Optionen für die Probenahme angeboten:

  • Keine - Importiert den gesamten Datensatz.

  • Erstes K - Stichprobe der ersten K Zeilen des Datensatzes, wobei K eine von Ihnen angegebene Ganzzahl ist.

  • Randomisiert - Nimmt eine zufällige Stichprobe mit einer von Ihnen angegebenen Größe.

  • Stratifiziert - Entnimmt eine stratifizierte zufällige Stichprobe. Eine stratifizierte Stichprobe behält das Verhältnis der Werte in einer Spalte bei.

Gehen Sie wie folgt vor, um Ihre Daten aus einer Databricks-Datenbank zu importieren.

Gehen Sie wie folgt vor, um Daten aus Databricks zu importieren.

  1. Melden Sie sich bei der Amazon SageMaker-Konsole an.

  2. Wählen Sie Studio.

  3. Wählen Sie App starten.

  4. Wählen Sie von der Auswahlliste Studio aus.

  5. Wählen Sie in Ihrem Data Wrangler-Ablauf auf der Registerkarte Daten importieren die Option Databricks aus.

  6. Geben Sie die folgenden Felder an:

    • Datensatzname - Ein Name, den Sie für den Datensatz in Ihrem Data Wrangler-Ablauf verwenden möchten.

    • Treiber - com.simba.spark.jdbc.Driver.

    • JDBC-URL – Die URL der Databricks-Datenbank. Die URL-Formatierung kann zwischen den Databricks-Instances variieren. Informationen zum Auffinden der URL und zur Angabe der darin enthaltenen Parameter finden Sie unter JDBC-Konfiguration und Verbindungsparameter. Im Folgenden finden Sie ein Beispiel dafür, wie eine URL formatiert werden kann: jdbc:spark://aws-sagemaker-datawrangler.cloud.databricks.com:443/default;transportMode =http;ssl=1;httpPath=sql/protocolv1/o/3122619508517275/0909-200301-cut318;AuthMech=3;UID=token ;PWD=personal-access-token.

      Anmerkung

      Sie können eine Secret-ARN angeben, die die JDBC-URL enthält, anstatt die JDBC-URL selbst anzugeben. Das Secret muss ein Schlüssel-Wert-Paar mit dem folgenden Format enthalten: jdbcURL:JDBC-URL. Weitere Informationen finden Sie unter Was ist der Secrets Manager?.

  7. Geben Sie eine SQL SELECT-Anweisung an.

    Anmerkung

    Data Wrangler unterstützt innerhalb einer Abfrage keine Common-Table-Expressions (CTE) oder temporäre Tabellen.

  8. Wählen Sie für Probenahme eine Methode zur Probenahme aus.

  9. Wählen Sie Ausführen aus.

  10. (Optional) Wählen Sie für die VORSCHAU die Zahnräder, um die Partitionseinstellungen zu öffnen.

    1. Geben Sie die Anzahl der Partitionen an. Sie können nach Spalten partitionieren, wenn Sie die Anzahl der Partitionen angeben:

      • Anzahl der Partitionen eingeben - Geben Sie einen Wert an, der größer als 2 ist.

      • (Optional) Partitionieren nach Spalten - Geben Sie die folgenden Felder an. Sie können nur dann nach einer Spalte partitionieren, wenn Sie einen Wert für Anzahl der Partitionen eingeben angegeben haben.

        • Spalte auswählen - Wählen Sie die Spalte aus, die Sie für die Datenpartition verwenden. Der Datentyp der Spalte muss ein numerisches oder ein Datumsformat haben.

        • Obergrenze - Aus den Werten in der Spalte, die Sie angegeben haben, ist die Obergrenze derjenige Wert, den Sie in der Partition verwenden. Der von Ihnen angegebene Wert ändert nichts an den Daten, die Sie importieren. Er wirkt sich nur auf die Geschwindigkeit des Imports aus. Um eine optimale Leistung zu erzielen, geben Sie eine Obergrenze an, die nahe am Maximum für die Spalte liegt.

        • Untergrenze - Aus den Werten in der Spalte, die Sie angegeben haben, ist die Untergrenze der Wert, den Sie in der Partition verwenden. Der von Ihnen angegebene Wert ändert nichts an den Daten, die Sie importieren. Er wirkt sich nur auf die Geschwindigkeit des Imports aus. Um eine optimale Leistung zu erzielen, geben Sie eine Untergrenze an, die nahe am Minimum für die Spalte liegt.

  11. Wählen Sie Importieren aus.

Daten aus Salesforce Data Cloud importieren

Sie können Salesforce Data Cloud als Datenquelle in Amazon SageMaker Data Wrangler verwenden, um die Daten in Ihrer Salesforce Data Cloud für Machine Learning vorzubereiten.

Mit Salesforce Data Cloud als Datenquelle in Data Wrangler können Sie schnell eine Verbindung zu Ihren Salesforce-Daten herstellen, ohne eine einzige Zeile Code schreiben zu müssen. Sie können Ihre Salesforce-Daten mit Daten aus jeder anderen Datenquelle in Data Wrangler zusammenführen.

Sobald Sie eine Verbindung mit der Data Cloud hergestellt haben, haben Sie folgende Optionen:

  • Ihre Daten mit integrierten Visualisierungen visualisieren

  • Die Daten verstehen und potenzielle Fehler und Extremwerte identifizieren

  • Die Daten mit mehr als 300 integrierten Transformationen transformieren

  • Die so transformierten Daten exportieren

Administrator-Einrichtung

Wichtig

Bevor Sie beginnen, stellen Sie sicher, dass Ihre Benutzer Amazon SageMaker Studio Classic Version 1.3.0 oder höher ausführen. Informationen zum Überprüfen der Version von Studio Classic und zum Aktualisieren finden Sie unter ML-Daten mit Amazon SageMaker Data Wrangler vorbereiten.

Wenn Sie den Zugriff auf Salesforce Data Cloud einrichten, müssen Sie die folgenden Aufgaben ausführen:

  • Abrufen Ihrer Salesforce-Domain-URL. Salesforce bezieht sich auf die Domain-URL auch als URL Ihrer Organisation.

  • Abrufen von OAuth-Anmeldeinformationen von Salesforce.

  • Abrufen der Autorisierungs-URL und der Token-URL für Ihre Salesforce-Domain.

  • Erstellen eines AWS Secrets Manager Secrets mit der OAuth-Konfiguration.

  • Erstellen einer Lebenszykluskonfiguration, die Data Wrangler verwendet, um die Anmeldeinformationen aus dem Secret zu lesen.

  • Data Wrangler die Erlaubnis erteilen, das Secret zu lesen.

Wenn Sie die obigen Aufgaben ausgeführt haben, können sich Ihre Benutzer mit OAuth bei der Salesforce Data Cloud anmelden.

Anmerkung

Ihre Benutzer stoßen ggf. auf Probleme, wenn Sie alles eingerichtet haben. Informationen zur Fehlerbehebung finden Sie unter Fehlerbehebung mit Salesforce.

Gehen Sie wie folgt vor, um die Domain-URL abzurufen.

  1. Navigieren Sie zur Salesforce-Anmeldeseite.

  2. Geben Sie für Schnellsuche Meine Domain an.

  3. Kopieren Sie den Wert von Meine aktuelle Domain-URL in eine Textdatei.

  4. Fügen Sie am Anfang der URL https:// hinzu.

Sobald Sie die Salesforce-Domain-URL erhalten haben, können Sie das folgende Verfahren verwenden, um die Anmeldeinformationen von Salesforce abzurufen und Data Wrangler den Zugriff auf Ihre Salesforce-Daten zu erlauben.

Gehen Sie wie folgt vor, um die Anmeldeinformationen von Salesforce abzurufen und Zugriff auf Data Wrangler zu gewähren.

  1. Navigieren Sie zu Ihrer Salesforce-Domain-URL und melden Sie sich bei Ihrem Konto an.

  2. Wählen Sie das Zahnradsymbol aus.

  3. Geben Sie in der Suchleiste, die nun erscheintn App Manager an.

  4. Wählen Sie Neue verbundene App aus.

  5. Geben Sie die folgenden Felder an:

    • Name der verbundenen App - Sie können einen beliebigen Namen angeben. Wir empfehlen jedoch, einen Namen zu wählen, der Data Wrangler enthält. Sie können z.B. Salesforce Data Cloud Data Wrangler-Integration angeben.

    • API-Name - Verwenden Sie den Standardwert.

    • Kontakt-E-Mail - Geben Sie Ihre E-Mail-Adresse an.

    • Wählen Sie unter der API-Überschrift (OAuth-Einstellungen aktivieren) das Kontrollkästchen aus, um die OAuth-Einstellungen zu aktivieren.

    • Geben Sie für Rückruf-URL die Amazon SageMaker Studio Classic-URL an. Um die URL für Studio Classic abzurufen, greifen Sie über die darauf zu AWS Management Console und kopieren Sie die URL.

  6. Verschieben Sie unter Ausgewählte OAuth-Bereiche folgende Elemente aus Verfügbare OAuth-Bereiche nach Ausgewählte OAuth-Bereiche:

    • Benutzerdaten über APIs verwalten (api)

    • Anfragen jederzeit ausführen (refresh_token, offline_access)

    • Führen Sie ANSI-SQL-Abfragen für Salesforce Data Cloud-Daten durch (cdp_query_api)

    • Profildaten der Salesforce Customer Data Platform verwalten (cdp_profile_api)

  7. Wählen Sie Speichern. Wenn Sie Ihre Änderungen gespeichert haben, öffnet Salesforce eine neue Seite.

  8. Klicken Sie auf Continue

  9. Navigieren Sie zu Verbraucherschlüssel und Secret.

  10. Wählen Sie Verbraucherdaten verwalten aus. Salesforce leitet Sie auf eine neue Seite weiter, auf der Sie ggf. die Zwei-Faktor-Authentifizierung passieren müssen.

  11. Wichtig

    Kopieren Sie den Verbraucherschlüssel und das Verbraucher-Secret in einen Texteditor. Diese Informationen brauchen Sie, um die Verbindung zwischen der Data Cloud und Data Wrangler herzustellen.

  12. Navigieren Sie zurück zu Verbundene Apps verwalten.

  13. Navigieren Sie zum Namen der verbundenen App und zum Namen Ihrer Anwendung.

  14. Wählen Sie Manage (Verwalten).

    1. Wählen Sie Richtlinien bearbeiten aus.

    2. Ändern Sie IP-Lockerung in IP-Einschränkungen lockern.

    3. Wählen Sie Speichern aus.

Wenn Sie den Zugriff auf Ihre Salesforce Data Cloud gewährt haben, müssen Sie noch Ihren Benutzern Berechtigungen erteilen. Gehen Sie wie folgt vor, um ihnen Berechtigungen zu erteilen.

Gehen Sie wie folgt vor, um Ihren Benutzern Berechtigungen zu erteilen.

  1. Navigieren Sie zur Setup-Homepage.

  2. Suchen Sie in der linken Navigationsleiste nach Benutzern und wählen Sie den Menüpunkt Benutzer aus.

  3. Wählen Sie das Hyperlink mit Ihrem Benutzernamen.

  4. Navigieren Sie zu Zuweisungen für den Berechtigungssatz.

  5. Wählen Sie Zuweisungen bearbeiten.

  6. Fügen Sie die folgenden Berechtigungen hinzu:

    • Administrator der Kundendatenplattform

    • Data-Aware-Spezialist für die Kundendatenplattform

  7. Wählen Sie Speichern.

Wenn Sie die Informationen für Ihre Salesforce-Domain erhalten haben, müssen Sie die Autorisierungs-URL und die Token-URL für das AWS Secrets Manager Secret abrufen, das Sie erstellen wollen.

Gehen Sie wie folgt vor, um die Autorisierungs-URL und die Token-URL abzurufen.

Zum Abrufen der Autorisierungs-URL und der Token-URL
  1. Navigieren Sie zu Ihrer Salesforce-Domain-URL.

  2. Verwenden Sie eine der folgenden Methoden, um die URLs abzurufen. Wenn Sie eine Linux-Distribution verwenden und curl und jq installiert haben, empfehlen wir, die Methode zu verwenden, die nur unter Linux funktioniert.

    • (Nur Linux) Geben Sie in Ihrem Terminal den folgenden Befehl an.

      curl salesforce-domain-URL/.well-known/openid-configuration | \ jq '. | { authorization_url: .authorization_endpoint, token_url: .token_endpoint }' | \ jq '. += { identity_provider: "SALESFORCE", client_id: "example-client-id", client_secret: "example-client-secret" }'
      1. Navigieren Sie in Ihrem Browser zu example-org-URL/.well-known/openid-configuration.

      2. Kopieren Sie authorization_endpoint und token_endpoint in einen Texteditor.

      3. Erstellen Sie das folgende JSON-Objekt:

        { "identity_provider": "SALESFORCE", "authorization_url": "example-authorization-endpoint", "token_url": "example-token-endpoint", "client_id": "example-consumer-key", "client_secret": "example-consumer-secret" }

Sobald Sie das OAuth-Konfigurationsobjekt erstellt haben, können Sie ein AWS Secrets Manager Secret erstellen, in dem es gespeichert wird. Gehen Sie wie folgt vor, um das Secret zu erstellen.

Gehen Sie wie folgt vor, um ein Secret zu erstellen.

  1. Navigieren Sie zur AWS Secrets Manager-Konsole.

  2. Wählen Sie Secret speichern aus.

  3. Wählen Sie Anderer Geheimnistyp aus.

  4. Wählen Sie unter Schlüssel/Wert-Paare die Option Klartext aus.

  5. Ersetzen Sie das leere JSON durch die folgenden Konfigurationseinstellungen.

    { "identity_provider": "SALESFORCE", "authorization_url": "example-authorization-endpoint", "token_url": "example-token-endpoint", "client_id": "example-consumer-key", "client_secret": "example-consumer-secret" }
  6. Wählen Sie Weiter aus.

  7. Geben Sie unter Name des Secrets den Namen des Secrets an.

  8. Wählen Sie unter Tags die Option Hinzufügen aus.

    1. Geben Sie als Schlüssel sagemaker:partner an. Wir empfehlen, für Value einen Wert anzugeben, der für Ihren Anwendungsfall nützlich sein könnte. Sie können jedoch eine beliebige Angabe machen.

    Wichtig

    Sie müssen den Schlüssel erstellen. Sie können Ihre Daten nicht aus Salesforce importieren, wenn Sie sie nicht erstellen.

  9. Wählen Sie Weiter aus.

  10. Wählen Sie Store (Speichern) aus.

  11. Wählen Sie das Secret aus, das Sie erstellt haben.

  12. Notieren Sie sich die folgenden Felder:

    • Die Amazon Resource Number (ARN) des Secrets

    • Den Namen des Secrets

Wenn Sie das Geheimnis erstellt haben, müssen Sie Berechtigungen hinzufügen, damit Data Wrangler das Secret lesen kann. Gehen Sie wie folgt vor, um Berechtigungen hinzuzufügen.

Gehen Sie wie folgt vor, um Leseberechtigungen für Data Wrangler hinzuzufügen.

  1. Navigieren Sie zur Amazon- SageMaker Konsole .

  2. Wählen Sie Domains aus.

  3. Wählen Sie die Domain aus, die Sie für den Zugriff auf Data Wrangler verwenden.

  4. Wählen Sie Ihr Benutzerprofil aus.

  5. Suchen Sie unter Details nach der Ausführungsrolle. Ihre ARN hat das folgende Format: arn:aws:iam::111122223333:role/example-role. Notieren Sie sich die SageMaker Ausführungsrolle. Innerhalb der ARN geht es um alles nach role/.

  6. Navigieren Sie zur IAM-Konsole.

  7. Geben Sie in der Suchleiste für IAM den Namen der SageMaker Ausführungsrolle an.

  8. Wählen Sie die Rolle aus.

  9. Wählen Sie Add permissions (Berechtigungen hinzufügen) aus.

  10. Wählen Sie Inline-Richtlinie erstellen aus.

  11. Wählen Sie den Tab JSON.

  12. Geben Sie im Editor die folgende Richtlinie an.

    { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "secretsmanager:GetSecretValue", "secretsmanager:PutSecretValue" ], "Resource": "arn:aws:secretsmanager:*:*:secret:*", "Condition": { "ForAnyValue:StringLike": { "aws:ResourceTag/sagemaker:partner": "*" } } }, { "Effect": "Allow", "Action": [ "secretsmanager:UpdateSecret" ], "Resource": "arn:aws:secretsmanager:*:*:secret:AmazonSageMaker-*" } ] }
  13. Wählen Sie Review policy (Richtlinie überprüfen) aus.

  14. Geben Sie für Name einen Namen an.

  15. Wählen Sie Richtlinie erstellen aus.

Nachdem Sie Data Wrangler Berechtigungen zum Lesen des Secrets erteilt haben, müssen Sie Ihrem Amazon SageMaker Studio Classic-Benutzerprofil eine Lebenszykluskonfiguration hinzufügen, die Ihr Secrets Manager-Secret verwendet.

Gehen Sie wie folgt vor, um eine Lebenszykluskonfiguration zu erstellen und sie dem Studio-Classic-Profil hinzuzufügen.

Gehen Sie wie folgt vor, um eine Lebenszykluskonfiguration zu erstellen und sie dem Studio-Classic-Profil hinzuzufügen.

  1. Navigieren Sie zur Amazon- SageMaker Konsole .

  2. Wählen Sie Domains aus.

  3. Wählen Sie die Domain aus, die Sie für den Zugriff auf Data Wrangler verwenden.

  4. Wählen Sie Ihr Benutzerprofil aus.

  5. Wenn Sie die folgenden Anwendungen sehen, löschen Sie sie:

    • KernelGateway

    • JupyterKernel

    Anmerkung

    Durch das Löschen der Anwendungen wird Studio Classic aktualisiert. Es kann eine Weile dauern, bis die Updates erfolgen.

  6. Während Sie auf die Updates warten, wählen Sie Lebenszykluskonfigurationen aus.

  7. Stellen Sie sicher, dass auf der Seite, auf der Sie sich befinden, die Studio Classic Lifecycle-Konfigurationen angezeigt werden.

  8. Wählen Sie Create configuration (Konfiguration erstellen).

  9. Achten Sie darauf, dass die Jupyter-Server-App ausgewählt wurde.

  10. Wählen Sie Weiter.

  11. Geben Sie für Name einen Namen für die Konfiguration an.

  12. Geben Sie für Skripte das folgende Skript an:

    #!/bin/bash set -eux cat > ~/.sfgenie_identity_provider_oauth_config <<EOL { "secret_arn": "secrets-arn-containing-salesforce-credentials" } EOL
  13. Wählen Sie Absenden aus.

  14. Wählen Sie in der Navigation links Domänen aus.

  15. Wählen Sie Ihre Domäne aus.

  16. Wählen Sie Environment (Umgebung) aus.

  17. Wählen Sie unter Lebenszykluskonfigurationen für persönliche Studio Classic-Apps die Option Anfügen aus.

  18. Wählen Sie Vorhandene Konfiguration aus.

  19. Wählen Sie unter Studio Classic Lifecycle-Konfigurationen die Lebenszykluskonfiguration aus, die Sie erstellt haben.

  20. Wählen Sie An Domäne anhängen aus.

  21. Aktivieren Sie das Kontrollkästchen neben der Lebenszykluskonfiguration, die Sie angehängt haben.

  22. Wählen Sie Als Standard festlegen aus.

Beim Einrichten Ihrer Lebenszykluskonfiguration können Probleme auftreten. Informationen zum Debuggen finden Sie unter Konfigurationen für den Debug-Lebenszyklus.

Leitfaden für Datenwissenschaftler

Gehen Sie wie folgt vor, um Salesforce Data Cloud mit Data Wrangler zu verbinden und von dort aus auf Ihre Daten zuzugreifen.

Wichtig

Ihr Administrator muss die Informationen in den vorangehenden Abschnitten verwenden, um Salesforce Data Cloud einzurichten. Wenn Probleme auftreten, wenden Sie sich an Ihren Administrator, um Hilfe bei der Fehlerbehebung zu erhalten.

Gehen Sie wie folgt vor, um Studio Classic zu öffnen und seine Version zu überprüfen.

  1. Führen Sie die Schritte unter ausVoraussetzungen, um über Amazon SageMaker Studio Classic auf Data Wrangler zuzugreifen.

  2. Wählen Sie neben dem Benutzer, den Sie zum Starten von Studio Classic verwenden möchten, App starten aus.

  3. Wählen Sie Studio.

Um in Data Wrangler einen Datensatz mit Daten aus der Salesforce Data Cloud zu erstellen
  1. Melden Sie sich bei der Amazon SageMaker-Konsole an.

  2. Wählen Sie Studio.

  3. Wählen Sie App starten.

  4. Wählen Sie in der Auswahlliste Studio aus.

  5. Wählen Sie das Symbol Startseite aus.

  6. Wählen Sie Datenaus.

  7. Wählen Sie Data Wrangler.

  8. Wählen Sie Daten importieren aus.

  9. Wählen Sie unter Verfügbar die Option Salesforce Data Cloud aus.

  10. Geben Sie unter Name der Verbindung einen Namen für Ihre Verbindung zur Salesforce Data Cloud an.

  11. Geben Sie für Org URL die Organisations-URL in Ihrem Salesforce-Konto an. Die URL können Sie von Ihrem Administrator erhalten.

  12. Wählen Sie Connect aus.

  13. Geben Sie Ihre Anmeldeinformationen an, um sich bei Salesforce anzumelden.

Sie können mit der Erstellung eines Datensatzes mithilfe von Daten aus der Salesforce Data Cloud beginnen, sobald Sie eine Verbindung hergestellt haben.

Sobald Sie eine Tabelle ausgewählt haben, können Sie Abfragen schreiben und ausführen. Die Ausgabe zu Ihrer Abfrage wird unter Abfrageergebnisse angezeigt.

Wenn Sie sich für die Ausgabe zu Ihrer Abfrage entschieden haben, können Sie nun die Ausgabe zu Ihrer Abfrage in einen Data Wrangler-Ablauf importieren, um Datentransformationen durchzuführen.

Wenn Sie einen Datensatz erstellt haben, navigieren Sie zu dem Bildschirm Datenablauf, um mit der Transformation Ihrer Daten zu beginnen.

Importieren von Daten aus Snowflake

Sie können Snowflake als Datenquelle in SageMaker Data Wrangler verwenden, um Daten in Snowflake für Machine Learning vorzubereiten.

Mit Snowflake als Datenquelle in Data Wrangler können Sie schnell eine Verbindung zu Snowflake herstellen, ohne eine einzige Zeile Code schreiben zu müssen. In Snowflake können Sie Ihre Daten mit Daten aus jeder anderen Datenquelle in Data Wrangler zusammenführen.

Sobald die Verbindung hergestellt ist, können Sie in Snowflake gespeicherte Daten interaktiv abfragen, mehr als 300 vorkonfigurierte Transformationen auf die Daten anwenden, Daten verstehen und potenzielle Fehler und Extremwerte mit einer Reihe robuster vorkonfigurierter Visualisierungsvorlagen identifizieren, schnell Inkonsistenzen in Ihrem Datenvorbereitungsworkflow erkennen und Probleme diagnostizieren, bevor Modelle in der Produktion eingesetzt werden. Schließlich können Sie Ihren Datenvorbereitungs-Workflow nach Amazon S3 exportieren, um ihn mit anderen SageMaker Funktionen wie Amazon SageMaker Autopilot, Amazon SageMaker Feature Store und Amazon SageMaker Model Building Pipelines zu verwenden.

Sie können die Ausgabe Ihrer Abfragen mit einem von Ihnen erstellten AWS Key Management Service Schlüssel verschlüsseln. Mehr über AWS KMS erfahren Sie unter AWS Key Management Service.

POST EDIT. ADDED PROOFREAD. ADDED PP1

Wichtig

Weitere Informationen zur detaillierten Zugriffskontrolle und zu bewährten Methoden finden Sie unter Security Access Control.

Dieser Abschnitt richtet sich an Snowflake-Administratoren, die den Zugriff auf Snowflake von SageMaker Data Wrangler aus einrichten.

Wichtig

Sie sind für die Verwaltung und Überwachung der Zugriffskontrolle in Snowflake verantwortlich. Data Wrangler fügt keine zusätzliche Zugriffskontrollebene für Snowflake hinzu.

Zur Zugriffskontrolle gehören u.a.:

  • Die Daten, auf die ein Benutzer zugreift

  • (Optional) Die Speicherintegration, mit deren Hilfe Snowflake Abfrageergebnisse in einen Amazon S3-Bucket schreiben kann

  • Die Abfragen, die ein Benutzer ausführen kann

(Optional) Snowflake-Datenimportberechtigungen konfigurieren

Standardmäßig fragt Data Wrangler die Daten in Snowflake ab, ohne an einem Amazon S3-Standort eine Kopie davon zu erstellen. Verwenden Sie die folgenden Informationen, wenn Sie eine Speicherintegration in Snowflake konfigurieren. Ihre Benutzer können eine Speicherintegration verwenden, um ihre Abfrageergebnisse an einem Amazon S3-Standort zu speichern.

Ihre Benutzer haben ggf. unterschiedliche Zugriffsebenen für sensible Daten. Für eine optimale Sicherheit der Daten sollten Sie für jeden Benutzer eine eigene Speicherintegration anlegen. Für jede Speicherintegration sollte eine eigene Datenverwaltungsrichtlinie gelten.

Diese Funktion steht in den Opt-in-Regionen derzeit nicht zur Verfügung.

Snowflake benötigt die folgenden Berechtigungen für einen S3-Bucket und ein Verzeichnis, um auf Dateien im Verzeichnis zugreifen zu können:

  • s3:GetObject

  • s3:GetObjectVersion

  • s3:ListBucket

  • s3:ListObjects

  • s3:GetBucketLocation

Eine IAM-Richtlinie erstellen

Sie müssen eine IAM-Richtlinie erstellen, um Zugriffsberechtigungen für Snowflake zum Laden und Entladen von Daten aus einem Amazon S3-Bucket zu konfigurieren.

Im Folgenden finden Sie das JSON-Richtliniendokument, das Sie zur Erstellung der Richtlinie verwenden:

# Example policy for S3 write access # This needs to be updated { "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": [ "s3:PutObject", "s3:GetObject", "s3:GetObjectVersion", "s3:DeleteObject", "s3:DeleteObjectVersion" ], "Resource": "arn:aws:s3:::bucket/prefix/*" }, { "Effect": "Allow", "Action": [ "s3:ListBucket" ], "Resource": "arn:aws:s3:::bucket/", "Condition": { "StringLike": { "s3:prefix": ["prefix/*"] } } } ] }

Informationen und Verfahren zum Erstellen von Richtlinien mit Richtliniendokumenten finden Sie unter IAM-Richtlinien erstellen.

Eine Dokumentation, die einen Überblick über die Verwendung von IAM-Berechtigungen mit Snowflake bietet, finden Sie in den folgenden Ressourcen:

Um der Snowflake-Rolle des Datenwissenschaftlers die Nutzungsberechtigung für die Speicherintegration zu erteilen, müssen Sie GRANT USAGE ON INTEGRATION integration_name TO snowflake_role; ausführen.

  • integration_name ist der Name Ihrer Speicherintegration.

  • snowflake_role ist der Name der Snowflake-Standardrolle, die dem Datenwissenschaftler als Benutzer zugewiesen wurde.

Snowflake OAuth-Zugang einrichten

Anstatt Ihre Benutzer ihre Anmeldeinformationen direkt in Data Wrangler eingeben zu lassen, können Sie sie für den Zugriff auf Snowflake einen Identitätsanbieter verwenden lassen. Im Folgenden finden Sie Links zur Snowflake-Dokumentation für die von Data Wrangler unterstützten Identitätsanbieter.

Verwenden Sie die Dokumentation unter den obigen Links, um den Zugang zu Ihrem Identitätsanbieter einzurichten. Mit Hilfe der in diesem Abschnitt beschriebenen Informationen und Verfahren verstehen Sie leichter, wie Sie die Dokumentation für den Zugriff auf Snowflake in Data Wrangler richtig verwenden.

Ihr Identitätsanbieter muss Data Wrangler als Anwendung erkennen. Gehen Sie wie folgt vor, um Data Wrangler als Anwendung beim Identitätsanbieter zu registrieren:

  1. Wählen Sie die Konfiguration aus, die den Registrierungsprozess für Data Wrangler als Anwendung startet.

  2. Gewähren Sie den Benutzern innerhalb des Identitätsanbieters Zugriff auf Data Wrangler.

  3. Aktivieren Sie die OAuth-Clientauthentifizierung, indem Sie die Client-Anmeldeinformationen als AWS Secrets Manager Secret speichern.

  4. Geben Sie eine URL zur Umleitung im folgenden Format an: https://Domain-ID.studio.AWS-Region.sagemaker.aws/jupyter/default/lab

    Wichtig

    Sie geben die Amazon SageMaker -Domain-ID an und verwenden AWS-Region sie, um Data Wrangler auszuführen.

    Wichtig

    Sie müssen eine URL für jede Amazon- SageMaker Domäne und registrierenAWS-Region, in der Sie Data Wrangler ausführen. Benutzer aus einer Domain und AWS-Region, für die keine URLs zur Umleitung eingerichtet wurden, können sich nicht beim Identitätsanbieter authentifizieren, um auf die Snowflake-Verbindung zuzugreifen.

  5. Vergewissern Sie sich, dass die Gewährungstypen für den Berechtigungscode und das Refresh-Token für die Anwendung Data Wrangler zulässig sind.

Innerhalb Ihres Identitätsanbieters müssen Sie einen Server einrichten, der OAuth-Token auf Benutzerebene an Data Wrangler sendet. Der Server sendet die Token mit Snowflake als Zielgruppe.

Snowflake verwendet das Rollenkonzept. Dabei handelt es sich um unterschiedliche Rollen, von denen die IAM-Rollen in AWS verwendet werden. Sie müssen den Identitätsanbieter so konfigurieren, dass er eine beliebige Rolle verwendet, um die dem Snowflake-Konto zugeordnete Standardrolle zu verwenden. Wenn ein Benutzer z.B. systems administrator als Standardrolle in seinem Snowflake-Profil hat, wird für die Verbindung von Data Wrangler zu Snowflake systems administrator als Rolle verwendet.

Gehen Sie wie folgt vor, um den Server einzurichten.

Gehen Sie wie folgt vor, um den Server einzurichten. Sie arbeiten für alle außer dem letzten Schritte in Snowflake.

  1. Beginnen Sie damit, den Server oder die API einzurichten.

  2. Konfigurieren Sie den Autorisierungsserver so, dass er die Gewährungstypen Autorisierungscode und Aktualisierungstoken verwendet.

  3. Geben Sie die Lebensdauer des Zugriffstokens an.

  4. Legen Sie die Leerlaufzeitüberschreitung für das Aktualisierungstoken fest. Die Leerlaufzeitüberschreitung ist die Zeitdauer, nach der das Aktualisierungstoken abläuft, wenn es nicht verwendet wird.

    Anmerkung

    Wenn Sie Jobs in Data Wrangler planen, empfehlen wir, die Leerlaufzeitüberschreitung länger als die Häufigkeit des Verarbeitungsauftrags festzulegen. Andernfalls könnten manche Verarbeitungsaufträge fehlschlagen, weil das Aktualisierungstoken abgelaufen ist, bevor der Auftrag ausgeführt werden konnte. Wenn das Aktualisierungstoken abläuft, muss sich der Benutzer erneut authentifizieren, indem er auf die Verbindung zugreift, die er über Data Wrangler zu Snowflake hergestellt hat.

  5. Geben Sie session:role-any als neuen Bereich an.

    Anmerkung

    Kopieren Sie für Azure AD die eindeutige Kennung für den Bereich. Data Wrangler verlangt von Ihnen, dass Sie ihm die Kennung zur Verfügung stellen.

  6. Wichtig

    Aktivieren Sie external_oauth_any_role_mode innerhalb der externen OAuth-Sicherheitsintegration für Snowflake.

Wichtig

Data Wrangler unterstützt keine rotierenden Aktualisierungstoken. Die Verwendung rotierender Aktualisierungstoken kann dazu führen, dass der Zugriff fehlschlägt oder der Benutzer sich häufig anmelden muss.

Wichtig

Wenn der Aktualisierungstoken abläuft, müssen sich Ihre Benutzer erneut authentifizieren, indem sie auf die Verbindung zugreifen, die sie über Data Wrangler zu Snowflake hergestellt haben.

Wenn Sie den OAuth-Anbieter eingerichtet haben, stellen Sie Data Wrangler die für die Verbindung mit dem Anbieter erforderlichen Informationen zur Verfügung. Sie können die Dokumentation Ihres Identitätsanbieters verwenden, um Werte für die folgenden Felder abzurufen:

  • Token-URL - Die URL des Tokens, das der Identitätsanbieter an Data Wrangler sendet.

  • Autorisierungs-URL - Die URL des Autorisierungsservers des Identitätsanbieters.

  • Client-ID - Die ID des Identitätsanbieters.

  • Client-Secret - Das Secret, das nur der Autorisierungsserver oder die API erkennen.

  • (Nur Azure AD) Die Anmeldeinformationen für den OAuth-Bereich, die Sie kopiert haben.

Sie speichern die Felder und Werte in einem AWS Secrets Manager Secret und fügen sie der Lebenszykluskonfiguration von Amazon SageMaker Studio Classic hinzu, die Sie für Data Wrangler verwenden. Eine Lebenszykluskonfiguration ist ein Shell-Skript. Damit können Sie Data Wrangler den Amazon Resource Name (ARN) des Secrets zugänglich zu machen. Informationen zum Erstellen von Secrets finden Sie unter Hartcodierte Geheimnisse verschieben nach AWS Secrets Manager. Informationen zur Verwendung von Lebenszykluskonfigurationen in Studio Classic finden Sie unter Verwenden von Lebenszykluskonfigurationen mit Amazon SageMaker Studio Classic.

Wichtig

Bevor Sie ein Secrets-Manager-Secret erstellen, stellen Sie sicher, dass die SageMaker Ausführungsrolle, die Sie für Amazon SageMaker Studio Classic verwenden, über Berechtigungen zum Erstellen und Aktualisieren von Secrets in Secrets Manager verfügt. Weitere Informationen zum Hinzufügen von Berechtigungen finden Sie unter Beispiel: Berechtigung zum Erstellen von Secrets.

Für Okta und Ping Federate ist das folgende das Format des Secrets:

{ "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token", "client_id":"example-client-id", "client_secret":"example-client-secret", "identity_provider":"OKTA"|"PING_FEDERATE", "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize" }

Für Azure AD ist das folgende Format für das Secret vorgesehen:

{ "token_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/token", "client_id":"example-client-id", "client_secret":"example-client-secret", "identity_provider":"AZURE_AD", "authorization_url":"https://identityprovider.com/oauth2/example-portion-of-URL-path/v2/authorize", "datasource_oauth_scope":"api://appuri/session:role-any)" }

Sie müssen über eine Lebenszykluskonfiguration verfügen, die das Secrets-Manager-Secret verwendet, das Sie erstellt haben. Sie können entweder die Lebenszykluskonfiguration erstellen oder eine bereits erstellte ändern. Die Konfiguration muss das folgende Skript verwenden.

#!/bin/bash set -eux ## Script Body cat > ~/.snowflake_identity_provider_oauth_config <<EOL { "secret_arn": "example-secret-arn" } EOL

Informationen zur Einrichtung von Lebenszykluskonfigurationen finden Sie unter Erstellen und Zuordnen einer Lebenszykluskonfiguration. Gehen Sie beim Einrichten wie folgt vor:

  • Stellen Sie den Anwendungstyp der Konfiguration auf Jupyter Server ein.

  • Hängen Sie die Konfiguration an die Amazon SageMaker Domain an, die Ihre Benutzer enthält.

  • Lassen Sie die Konfiguration standardmäßig ausführen. Er muss jedes Mal ausgeführt werden, wenn sich ein Benutzer bei Studio Classic anmeldet. Andernfalls sind die in der Konfiguration gespeicherten Anmeldeinformationen für Ihre Benutzer nicht verfügbar, wenn sie Data Wrangler verwenden.

  • Die Lebenszykluskonfiguration erstellt eine Datei mit dem Namen snowflake_identity_provider_oauth_config im Home-Ordner des Benutzers. Die Datei enthält das Secrets-Manager-Secret. Vergewissern Sie sich, dass es sich bei jeder Initialisierung der Jupyter Server-Instanz im Home-Ordner des Benutzers befindet.

Private Konnektivität zwischen Data Wrangler und Snowflake über AWS PrivateLink

In diesem Abschnitt wird erklärt, wie Sie mit AWS PrivateLink eine private Verbindung zwischen Data Wrangler und Snowflake herstellen können. Die einzelnen Schritte werden in den folgenden Abschnitten erläutert.

Erstellen einer VPC

Wenn Sie keine VPC eingerichtet haben, folgen Sie den Anweisungen unter Neue VPC erstellen, um eine zu erstellen.

Sobald Sie eine VPC ausgewählt haben, die Sie zur Herstellung einer privaten Verbindung verwenden möchten, geben Sie Ihrem Snowflake-Administrator die folgenden Anmeldeinformationen zur Aktivierung an AWS PrivateLink:

  • VPC-ID

  • AWS-Konto-ID

  • Ihre entsprechende Konto-URL, mit der Sie auf Snowflake zugreifen

Wichtig

Wie in der Snowflake-Dokumentation beschrieben, kann die Aktivierung Ihres Snowflake-Kontos bis zu zwei Werktage dauern.

Sobald AWS PrivateLink aktiviert ist, rufen Sie die AWS PrivateLink Konfiguration für Ihre Region ab, indem Sie in einem Snowflake-Arbeitsblatt den folgenden Befehl ausführen. Melden Sie sich bei Ihrer Snowflake-Konsole an und geben Sie unter Arbeitsblätter Folgendes ein: select SYSTEM$GET_PRIVATELINK_CONFIG();

  1. Rufen Sie die Werte für Folgendes ab: privatelink-account-name, privatelink_ocsp-url, privatelink-account-url und privatelink_ocsp-url aus dem resultierenden JSON-Objekt. Beispiele für jeden dieser Werte sind im folgenden Ausschnitt gezeigt. Speichern Sie diese Werte zur späteren Verwendung.

    privatelink-account-name: xxxxxxxx.region.privatelink privatelink-vpce-id: com.amazonaws.vpce.region.vpce-svc-xxxxxxxxxxxxxxxxx privatelink-account-url: xxxxxxxx.region.privatelink.snowflakecomputing.com privatelink_ocsp-url: ocsp.xxxxxxxx.region.privatelink.snowflakecomputing.com
  2. Wechseln Sie zu Ihrer AWS Konsole und navigieren Sie zum VPC-Menü.

  3. Wählen Sie im linken Bereich das Link Endpunkte aus, um zur Einrichtung der VPC-Endpunkte zu gelangen.

    Wählen Sie dort Endpunkt erstellen aus.

  4. Wählen Sie die Optionsschaltfläche für Dienst nach Name suchen aus, wie im folgenden Screenshot gezeigt.

  5. Fügen Sie im Feld Dienstname den Wert für privatelink-vpce-id, den Sie im vorangehenden Schritt abgerufen haben, und wählen Sie Überprüfen aus.

    Wenn die Verbindung erfolgreich ist, erscheint auf Ihrem Bildschirm eine grüne Warnung mit der Meldung Dienstname gefunden, und die Optionen für VPC und Subnetz werden automatisch erweitert, wie im folgenden Screenshot gezeigt. Je nach Ihrer Zielregion wird auf dem dann angezeigten Bildschirm ggf. der Name einer anderen AWS Region angezeigt.

  6. Wählen Sie dieselbe VPC-ID, die Sie an Snowflake gesendet haben, von der Auswahlliste VPC aus.

  7. Wenn Sie noch kein Subnetz erstellt haben, folgen Sie den folgenden Anweisungen zum Erstellen eines Subnetzes.

  8. Wählen Sie Subnetze von der Auswahlliste VPC aus. Wählen Sie dann Subnetz erstellen aus und folgen Sie den Anweisungen, um in Ihrer VPC eine Teilmenge zu erstellen. Achten Sie darauf, dass Sie auch diejenige VPC-ID auswählen, die Sie an Snowflake gesendet haben.

  9. Wählen Sie unter Konfiguration von Sicherheitsgruppen die Option Neue Sicherheitsgruppe erstellen aus, um das Standardfenster für Sicherheitsgruppen auf einer neuen Registerkarte zu öffnen. Wählen Sie auf dieser neuen Registerkarte die Option Sicherheitsgruppe erstellen aus.

  10. Geben Sie einen Namen für die neue Sicherheitsgruppe (z.B. datawrangler-doc-snowflake-privatelink-connection) und eine Beschreibung ein. Achten Sie darauf, die VPC-ID auszuwählen, die Sie in den vorangehenden Schritten verwendet haben.

  11. Fügen Sie zwei Regeln hinzu, um Datenverkehr von innerhalb Ihrer VPC zu diesem VPC-Endpunkt zuzulassen.

    Navigieren Sie auf einer separaten Registerkarte unter Ihre VPCs zu Ihrer VPC und rufen Sie Ihren CIDR-Block für Ihre VPC ab. Wählen Sie dann im Abschnitt Regeln für eingehenden Datenverkehr die Option Regel hinzufügen aus. Wählen Sie als Typ HTTPS aus, belassen Sie im Formular Quelle als Benutzerdefiniert und fügen Sie den beim vorangehenden describe-vpcs Aufruf abgerufenen Wert ein (z.B. 10.0.0.0/16).

  12. Wählen Sie Sicherheitsgruppen erstellen aus. Rufen Sie die ID der Sicherheitsgruppe aus der neu erstellten Sicherheitsgruppe ab (z.B. sg-xxxxxxxxxxxxxxxxx).

  13. Entfernen Sie im Konfigurationsbildschirm VPC-Endpunkte die Standardsicherheitsgruppe. Fügen Sie die ID der Sicherheitsgruppe in das Suchfeld ein und aktivieren Sie das Kontrollkästchen.

  14. Wählen Sie Endpunkt erstellen aus.

  15. Wenn die Endpunkterstellung erfolgreich ist, sehen Sie eine Seite mit einem Link zur Konfiguration Ihres VPC-Endpunktes, die durch die VPC-ID angegeben ist. Wählen Sie das Link aus, damit die gesamte Konfiguration angezeigt wird.

    Rufen Sie den obersten Eintrag auf der Liste mit den DNS-Namen ab. Dieser Name kann von anderen DNS-Namen unterschieden werden, da er nur den Namen der Region (z.B. us-west-2) und keine Bezeichnung mit einem Buchstaben für die Availability Zone (z.B. us-west-2a) enthält. Speichern Sie diese Informationen zur späteren Verwendung.

In diesem Abschnitt wird erklärt, wie DNS für Snowflake-Endpunkte in Ihrer VPC konfiguriert werden. Damit kann Ihre VPC Anfragen an den AWS PrivateLink Snowflake-Endpunkt auflösen.

  1. Navigieren Sie in Ihrer AWS Konsole zum Menü Route 53.

  2. Wählen Sie die Option Gehostete Zonen (erweitern Sie ggf. links das Menü, um diese Option zu finden).

  3. Wählen Sie Create Hosted Zone.

    1. Schauen Sie im Feld Domainname den Wert nach, der in den vorangehenden Schritten für privatelink-account-url gespeichert wurde. In diesem Feld wird Ihre Snowflake-Konto-ID aus dem DNS-Namen entfernt und es wird nur der Wert verwendet, der mit der Regionskennung beginnt. Später wird auch ein Resource Record Set für die Subdomain erstellt, z.B. region.privatelink.snowflakecomputing.com

    2. Wählen Sie die Optionsschaltfläche für Private Hosted Zone im Abschnitt Typ aus. Der Code für Ihre Region ist ggf. nichtus-west-2. Schauen Sie den DNS-Namen nach, den Sie von Snowflake erhalten haben.

    3. Wählen Sie im Abschnitt Der gehosteten Zone zuzuordnende VPCs die Region aus, in der sich Ihre VPC befindet, und die VPC-ID, die in den vorangehenden Schritten verwendet wurde.

    4. Wählen Sie Erstellte gehostete Zone.

  4. Erstellen Sie als Nächstes zwei Datensätze, einen für privatelink-account-url und einen für privatelink_ocsp-url.

    • Wählen Sie im Menü Hosted Zone die Option Datensätze erstellen aus.

      1. Geben Sie unter Datensatzname nur Ihre Snowflake-Konto-ID ein (die ersten 8 Zeichen in privatelink-account-url).

      2. Wählen Sie unter Datensatztyp die Option CNAME aus.

      3. Geben Sie unter Wert den DNS-Namen für den regionalen VPC-Endpunkt ein, den Sie im letzten Schritt im Abschnitt Snowflake-Integration für AWS PrivateLink einrichten abgerufen haben.

      4. Wählen Sie Create records (Datensätze erstellen).

      5. Wiederholen Sie die vorangehenden Schritte für den OCSP-Datensatz, den wir als privatelink-ocsp-url wir notiert haben, beginnend mit ocsp bis zu der 8-stelligen Snowflake-ID für den Datensatznamen (z.B. ocsp.xxxxxxxx).

In diesem Abschnitt wird erklärt, wie die Endpunkte für eingehenden Datenverkehr von Route 53 Resolvern für Ihre VPC konfiguriert werden.

  1. Navigieren Sie in Ihrer AWS Konsole zum Menü Route 53.

    • Wählen Sie links im Bereich Sicherheit die Option Sicherheitsgruppen aus.

  2. Wählen Sie Sicherheitsgruppen erstellen aus.

    • Geben Sie einen Namen für Ihre Sicherheitsgruppe (z.B. datawranger-doc-route53-resolver-sg) und eine Beschreibung ein.

    • Wählen Sie die in den vorangehenden Schritten verwendete VPC-ID aus.

    • Erstellen Sie Regeln, die von innerhalb des VPC-CIDR-Blocks DNS über UDP und TCP zulassen.

    • Wählen Sie Sicherheitsgruppen erstellen aus. Notieren Sie sich die Sicherheitsgruppen-ID, da eine Regel hinzugefügt wird, die den Datenverkehr zur Sicherheitsgruppe des VPC-Endpunktes zulässt.

  3. Navigieren Sie in Ihrer AWS Konsole zum Menü Route 53.

    • Wählen Sie im Bereich Resolver die Option Endpunkt für eingehenden Datenverkehr aus.

  4. Wählen Sie Endpunkt für eingehenden Datenverkehr erstellen aus.

    • Geben Sie einen Namen für den Endpunkt ein.

    • Wählen Sie von der Auswahlliste VPC in der Region die VPC-ID aus, die Sie in allen vorangehenden Schritten verwendet haben.

    • Wählen Sie von der Auswahlliste Sicherheitsgruppe für diesen Endpunkt die Sicherheitsgruppen-ID aus Schritt 2 in diesem Abschnitt aus.

    • Wählen Sie im Abschnitt IP-Adresse eine Availability Zones aus, wählen Sie ein Subnetz aus und lassen Sie für jede IP-Adresse die Optionsschaltfläche für Automatisch ausgewählte IP-Adresse verwende ausgewählt.

    • Wählen Sie Absenden aus.

  5. Wählen Sie den Endpunkt für eingehenden Datenverkehr aus, sobald dieser erstellt wurde.

  6. Sobald der Endpunkt für eingehenden Datenverkehr erstellt wurde, notieren Sie sich die beiden IP-Adressen für die Resolver.

SageMaker VPC-Endpunkte

In diesem Abschnitt wird erläutert, wie Sie VPC-Endpunkte für Folgendes erstellen: Amazon SageMaker Studio Classic, SageMaker Notebooks, die SageMaker API, SageMaker Laufzeit und Amazon SageMaker Feature Store Runtime.

Eine Sicherheitsgruppe erstellen, die auf alle Endgeräte angewendet wird.

  1. Navigieren Sie in der AWS-Konsole zum Menü EC2.

  2. Wählen Sie im Bereich Netzwerk und Sicherheit die Option Sicherheitsgruppen aus.

  3. Wählen Sie Sicherheitsgruppe erstellen aus.

  4. Geben Sie einen Namen und eine Beschreibung für die Sicherheitsgruppe an (z.B. datawrangler-doc-sagemaker-vpce-sg). Später wird eine Regel hinzugefügt, um Datenverkehr über HTTPS von zu dieser Gruppe SageMaker zuzulassen.

Endpunkte erstellen

  1. Navigieren Sie in der AWS Konsole zum Menü VPC.

  2. Wählen Sie die Option Endpunkte aus.

  3. Klicken Sie auf Create Endpunkt (Endpunkt erstellen).

  4. Suchen Sie nach dem Dienst, indem Sie dessen Namen in das Feld Suchen eingeben.

  5. Wählen Sie von der Auswahlliste VPC die VPC aus, in der Ihre Snowflake AWS PrivateLink Verbindung besteht.

  6. Wählen Sie im Abschnitt Subnetze die Subnetze aus, die Zugriff auf die Snowflake- PrivateLink Verbindung haben.

  7. Lassen Sie das Kontrollkästchen DNS-Namen aktivieren aktiviert.

  8. Wählen Sie im Abschnitt Sicherheitsgruppen die Sicherheitsgruppe aus, die Sie im vorangehenden Abschnitt erstellt haben.

  9. Klicken Sie auf Endpunkt erstellen.

Studio Classic und Data Wrangler konfigurieren

In diesem Abschnitt wird erläutert, wie Studio Classic und Data Wrangler konfiguriert werden.

  1. Sicherheitsgruppe konfigurieren.

    1. Navigieren Sie in der AWS Konsole zu dem Menü Amazon EC2.

    2. Wählen Sie im Bereich Netzwerk und Sicherheit die Option Sicherheitsgruppen aus.

    3. Wählen Sie Sicherheitsgruppen erstellen aus.

    4. Geben Sie einen Namen und eine Beschreibung für Ihre Sicherheitsgruppe an (z.B. datawrangler-doc-sagemaker-studio).

    5. Erstellen Sie die folgenden Regeln für eingehenden Datenverkehr.

      • Die HTTPS-Verbindung zu der Sicherheitsgruppe, die Sie für die Snowflake- PrivateLink Verbindung bereitgestellt haben, die Sie im Schritt Snowflake- PrivateLink Integration einrichten erstellt haben.

      • Die HTTP-Verbindung zu der Sicherheitsgruppe, die Sie für die Snowflake- PrivateLink Verbindung bereitgestellt haben, die Sie im Schritt Snowflake- PrivateLink Integration einrichten erstellt haben.

      • Die Sicherheitsgruppe für UDP und TCP für DNS (Port 53) zum Route 53 Resolver-Endpunkt für eingehenden Datenverkehr, die Sie in Schritt 2 von Route 53 Resolver Endpunkt für eingehenden Datenverkehr konfigurieren für Ihre VPC erstellen.

    6. Wählen Sie unten rechts in der Ecke die Schaltfläche Sicherheitsgruppe erstellen.

  2. Konfigurieren Sie Studio Classic.

    • Navigieren Sie zum SageMaker Menü in der -AWSKonsole.

    • Wählen Sie in der linken Konsole die Option SageMaker Studio Classic aus.

    • Wenn Sie keine Domains konfiguriert haben, wird das Menü Erste Schritte angezeigt.

    • Wählen Sie im Menü Erste Schritte die Option Standardeinrichtung aus.

    • Wählen Sie unter Authentifizierungsmethode die Option AWS Identity and Access Management (IAM).

    • Im Menü Berechtigungen können Sie je nach Anwendungsfall eine neue Rolle erstellen oder eine bereits vorhandene Rolle verwenden.

      • Wenn Sie Neue Rolle erstellen wählen, erhalten Sie die Option, einen S3-Bucket-Namen anzugeben. Außerdem wird eine Richtlinie für Sie erzeugt.

      • Wenn Sie bereits eine Rolle mit Berechtigungen für die S3-Buckets erstellt haben, auf die Sie Zugriff benötigen, wählen Sie die Rolle von der Auswahlliste aus. Dieser Rolle sollte die Richtlinie AmazonSageMakerFullAccess angefügt werden.

    • Wählen Sie die Dropdown-Liste Netzwerk und Speicher aus, um die VPC, die Sicherheit und die Subnetze SageMaker zu konfigurieren, die verwendet.

      • Wählen Sie unter VPC die VPC aus, in der Ihre Snowflake- PrivateLink Verbindung besteht.

      • Wählen Sie unter Subnetz(e) die Subnetze aus, die Zugriff auf die Snowflake PrivateLink-Verbindung haben.

      • Wählen Sie unter Netzwerkzugriff für Studio Classic die Option Nur VPC aus.

      • Wählen Sie unter Sicherheitsgruppe(n) die Sicherheitsgruppe aus, die Sie in Schritt 1 erstellt haben.

    • Wählen Sie Absenden aus.

  3. Bearbeiten Sie die SageMaker Sicherheitsgruppe.

    • Erstellen Sie die folgenden Regeln für eingehenden Datenverkehr:

      • Port 2049 zu den eingehenden und ausgehenden NFS-Sicherheitsgruppen, die automatisch von SageMaker in Schritt 2 erstellt wurden (die Sicherheitsgruppennamen enthalten die Studio Classic-Domain-ID).

      • Zugriff auf alle TCP-Ports auf sich selbst (nur für SageMaker für VPC erforderlich).

  4. VPC-Endpunkt-Sicherheitsgruppen bearbeiten:

    • Navigieren Sie in der AWS Konsole zum Menü Amazon EC2.

    • Suchen Sie die Sicherheitsgruppe, die Sie in einem vorangehenden Schritt erstellt haben.

    • Fügen Sie eine Regel für eingehenden Datenverkehr hinzu, nach der HTTPS-Datenverkehr von der in Schritt 1 erstellten Sicherheitsgruppe zulässig ist.

  5. Benutzerprofil erstellen.

    • Wählen Sie im SageMaker Studio Classic Control Panel dieOption Benutzer hinzufügen aus.

    • Geben Sie einen Benutzernamen an.

    • Wählen Sie für die Ausführungsrolle aus, ob Sie eine neue Rolle erstellen oder eine bereits vorhandene Rolle verwenden möchten.

      • Wenn Sie Neue Rolle erstellen auswählen, erhalten Sie die Option, einen Amazon S3-Bucket-Namen anzugeben, und es wird eine Richtlinie für Sie erzeugt.

      • Wenn Sie bereits eine Rolle mit Berechtigungen für die Amazon S3-Buckets erstellt haben, auf die Sie Zugriff benötigen, wählen Sie die Rolle von der Auswahlliste aus. Dieser Rolle sollte die Richtlinie AmazonSageMakerFullAccess angefügt werden.

    • Wählen Sie Absenden aus.

  6. Erstellen Sie einen Datenablauf (folgen Sie hierzu dem Leitfaden für Datenwissenschaftler, der in einem vorangehenden Abschnitt beschrieben wurde).

    • Wenn Sie eine Snowflake-Verbindung hinzufügen, geben Sie den Wert von privatelink-account-name (aus dem Schritt Snowflake PrivateLink-Integration einrichten) in das Feld Name des Snowflake-Kontos (alphanumerisch) anstelle des reinen Snowflake-Kontonamens ein. Alles andere bleibt unverändert.

Informationen für den Datenwissenschaftler zur Verfügung stellen

Stellen Sie dem Datenwissenschaftler die Informationen bereit, die er für den Zugriff auf Snowflake von Amazon SageMaker Data Wrangler benötigt.

Wichtig

Ihre Benutzer müssen Amazon SageMaker Studio Classic Version 1.3.0 oder höher ausführen. Informationen zum Überprüfen der Version von Studio Classic und zum Aktualisieren finden Sie unter ML-Daten mit Amazon SageMaker Data Wrangler vorbereiten.

  1. Damit Ihr Datenwissenschaftler von SageMaker Data Wrangler aus auf Snowflake zugreifen kann, stellen Sie ihm eine der folgenden Optionen zur Verfügung:

    • Für die Basisauthentifizierung einen Snowflake-Kontonamen, einen Benutzernamen und ein Passwort.

    • Für OAuth einen Benutzernamen und ein Passwort beim Identitätsanbieter.

    • Für ARN, das Secrets-Manager-Secret Amazon Resource Name (ARN).

    • Ein Secret, das mit AWSSecrets Manager und dem ARN des Secrets erstellt wurde. Gehen Sie wie folgt vor, um das Secret für Snowflake zu erstellen, wenn Sie diese Option wählen.

      Wichtig

      Wenn Ihre Datenwissenschaftler die Option Snowflake-Anmeldeinformationen (Benutzername und Passwort) verwenden, um eine Verbindung zu Snowflake herzustellen, können Sie die Anmeldeinformationen mit Secrets Manager in einem Secret speichern. Secrets Manager rotiert Secrets im Rahmen eines auf bewährten Methoden basierenden Sicherheitsplans. Auf das in Secrets Manager erstellte Secret kann nur mit der Studio Classic-Rolle zugegriffen werden, die konfiguriert ist, wenn Sie ein Studio Classic-Benutzerprofil einrichten. Dazu müssen Sie diese Berechtigung, secretsmanager:PutResourcePolicy, der Richtlinie hinzufügen, die Ihrer Studio Classic-Rolle zugeordnet ist.

      Wir empfehlen dringend, die Rollenrichtlinie so zu beschränken, dass verschiedene Rollen für verschiedene Gruppen von Studio-Classic-Benutzern verwendet werden. Sie können weitere ressourcenbasierte Berechtigungen für die Secrets-Manager-Secrets hinzufügen. Bedingungsschlüssel, die Sie verwenden können, finden Sie unter Secret Policy verwalten.

      Informationen dazu, wie Sie ein Secret erstellen können, finden Sie unter Secret erstellen. Die von Ihnen erstellten Secrets werden Ihnen in Rechnung gestellt.

  2. (Optional) Teilen Sie dem Datenwissenschaftler den Namen der Speicherintegration mit, die Sie mithilfe des Verfahrens Cloud-Speicherintegration in Snowflake erstellen erstellt haben. Dies ist der Name der neuen Integration und wird integration_name in dem von Ihnen ausgeführten CREATE INTEGRATION SQL-Befehl aufgerufen, der im folgenden Codeausschnitt dargestellt ist:

    CREATE STORAGE INTEGRATION integration_name TYPE = EXTERNAL_STAGE STORAGE_PROVIDER = S3 ENABLED = TRUE STORAGE_AWS_ROLE_ARN = 'iam_role' [ STORAGE_AWS_OBJECT_ACL = 'bucket-owner-full-control' ] STORAGE_ALLOWED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') [ STORAGE_BLOCKED_LOCATIONS = ('s3://bucket/path/', 's3://bucket/path/') ]

Leitfaden für Datenwissenschaftler

Gehen Sie wie folgt vor, um Snowflake zu verbinden und in Data Wrangler auf Ihre Daten zuzugreifen.

Wichtig

Ihr Administrator muss die Informationen in den vorangehenden Abschnitten verwenden, um Snowflake einzurichten. Wenn Sie Probleme auftreten, wenden Sie sich an Ihren Administrator, um Hilfe bei der Fehlerbehebung zu erhalten.

Eine Verbindung zu Snowflake können Sie wie folgt herstellen:

  • Geben Sie Ihre Snowflake-Anmeldeinformationen (Kontoname, Benutzername und Passwort) in Data Wrangler an.

  • Angabe eines Amazon Resource Name (ARN) eines Secrets mit den Anmeldeinformationen.

  • Verwendung eines offenen Standards für den Anbieter der Zugriffsdelegation (OAuth), der eine Verbindung zu Snowflake herstellt. Ihr Administrator kann Ihnen Zugriff auf einen der folgenden OAuth-Anbieter gewähren:

Sprechen Sie mit Ihrem Administrator über die Methode, die Sie für die Verbindung zu Snowflake verwenden müssen.

In den folgenden Abschnitten finden Sie Informationen darüber, wie Sie mit den o.g. Methoden eine Verbindung zu Snowflake herstellen können.

Specifying your Snowflake Credentials
Um aus Snowflake einen Datensatz mit Ihren Anmeldeinformationen in Data Wrangler zu importieren
  1. Melden Sie sich bei der Amazon SageMaker-Konsole an.

  2. Wählen Sie Studio.

  3. Wählen Sie App starten.

  4. Wählen Sie in der Auswahlliste Studio aus.

  5. Wählen Sie das Symbol Startseite aus.

  6. Wählen Sie Datenaus.

  7. Wählen Sie Data Wrangler.

  8. Wählen Sie Daten importieren aus.

  9. Wählen Sie unter Verfügbar die Option Snowflake aus.

  10. Geben Sie unter Name der Verbindung einen Namen an, der die Verbindung eindeutig angibt.

  11. Wählen Sie für die Authentifizierungsmethode Basis (Benutzername/Passwort) aus.

  12. Geben Sie für Snowflake-Kontoname (alphanumerisch) den vollständigen Namen des Snowflake-Kontos an.

  13. Geben Sie unter Benutzername den Benutzernamen an, den Sie für den Zugriff auf das Snowflake-Konto verwenden.

  14. Geben Sie für Passwort das mit dem Benutzernamen verbundene Passwort an.

  15. (Optional) Geben Sie für erweiterte Einstellungen Folgendes an:

    • Rolle - Eine Rolle innerhalb von Snowflake. Manche Rollen haben Zugriff auf verschiedene Datensätze. Wenn Sie keine Rolle angeben, verwendet Data Wrangler in Ihrem Snowflake-Konto die Standardrolle.

    • Speicherintegration - Wenn Sie eine Abfrage angeben und ausführen, erstellt Data Wrangler eine temporäre Kopie der Abfrageergebnisse im Speicher. Um eine permanente Kopie der Abfrageergebnisse zu speichern, geben Sie den Amazon S3-Speicherort für die Speicherintegration an. Ihr Administrator hat Ihnen die S3-URI zur Verfügung gestellt.

    • KMS-Schlüssel-ID - Ein von Ihnen erstellter KMS-Schlüssel. Sie können dessen ARN angeben, um die Ausgabe der Snowflake-Abfrage zu verschlüsseln. Andernfalls verwendet Data Wrangler die Standardverschlüsselung.

  16. Wählen Sie Connect aus.

Providing an Amazon Resource Name (ARN)
Um einen Datensatz mit einem ARN aus Snowflake in Data Wrangler zu importieren
  1. Melden Sie sich bei der Amazon SageMaker-Konsole an.

  2. Wählen Sie Studio.

  3. Wählen Sie App starten.

  4. Wählen Sie in der Auswahlliste Studio aus.

  5. Wählen Sie das Symbol Startseite aus.

  6. Wählen Sie Datenaus.

  7. Wählen Sie Data Wrangler.

  8. Wählen Sie Daten importieren aus.

  9. Wählen Sie unter Verfügbar die Option Snowflake aus.

  10. Geben Sie unter Name der Verbindung einen Namen an, der die Verbindung eindeutig angibt.

  11. Wählen Sie als Authentifizierungsmethode ARN aus.

  12. Secrets Manager ARN - Der ARN des AWS Secrets Manager Secrets, das zum Speichern der Anmeldeinformationen verwendet wird, die für die Verbindung mit Snowflake verwendet werden.

  13. (Optional) Geben Sie für erweiterte Einstellungen Folgendes an:

    • Rolle - Eine Rolle innerhalb von Snowflake. Manche Rollen haben Zugriff auf verschiedene Datensätze. Wenn Sie keine Rolle angeben, verwendet Data Wrangler in Ihrem Snowflake-Konto die Standardrolle.

    • Speicherintegration - Wenn Sie eine Abfrage angeben und ausführen, erstellt Data Wrangler eine temporäre Kopie der Abfrageergebnisse im Speicher. Um eine permanente Kopie der Abfrageergebnisse zu speichern, geben Sie den Amazon S3-Speicherort für die Speicherintegration an. Ihr Administrator hat Ihnen die S3-URI zur Verfügung gestellt.

    • KMS-Schlüssel-ID - Ein von Ihnen erstellter KMS-Schlüssel. Sie können dessen ARN angeben, um die Ausgabe der Snowflake-Abfrage zu verschlüsseln. Andernfalls verwendet Data Wrangler die Standardverschlüsselung.

  14. Wählen Sie Connect aus.

Using an OAuth Connection
Wichtig

Ihr Administrator hat Ihre Studio Classic-Umgebung so angepasst, dass sie die Funktionalität bietet, die Sie zur Verwendung einer OAuth-Verbindung verwenden. Sie müssen die Jupyter-Serveranwendung ggf. neu starten, um die Funktionalität nutzen zu können.

Gehen Sie wie folgt vor, um die Jupyter-Serveranwendung zu aktualisieren.

  1. Wählen Sie in Studio Classic die Option Datei aus.

  2. Wählen Sie Herunterfahren aus.

  3. Wählen Sie Server herunterfahren aus.

  4. Schließen Sie die Registerkarte oder das Fenster, das Sie für den Zugriff auf Studio Classic verwenden.

  5. Öffnen Sie in der Amazon- SageMaker Konsole Studio Classic.

Um aus Snowflake einen Datensatz mit Ihren Anmeldeinformationen in Data Wrangler zu importieren
  1. Melden Sie sich bei der Amazon SageMaker-Konsole an.

  2. Wählen Sie Studio.

  3. Wählen Sie App starten.

  4. Wählen Sie in der Auswahlliste Studio aus.

  5. Wählen Sie das Symbol Startseite aus.

  6. Wählen Sie Datenaus.

  7. Wählen Sie Data Wrangler.

  8. Wählen Sie Daten importieren aus.

  9. Wählen Sie unter Verfügbar die Option Snowflake aus.

  10. Geben Sie unter Name der Verbindung einen Namen an, der die Verbindung eindeutig angibt.

  11. Wählen Sie als Authentifizierungsmethode OAuth aus.

  12. (Optional) Geben Sie für erweiterte Einstellungen Folgendes an:

    • Rolle - Eine Rolle innerhalb von Snowflake. Manche Rollen haben Zugriff auf verschiedene Datensätze. Wenn Sie keine Rolle angeben, verwendet Data Wrangler in Ihrem Snowflake-Konto die Standardrolle.

    • Speicherintegration - Wenn Sie eine Abfrage angeben und ausführen, erstellt Data Wrangler eine temporäre Kopie der Abfrageergebnisse im Speicher. Um eine permanente Kopie der Abfrageergebnisse zu speichern, geben Sie den Amazon S3-Speicherort für die Speicherintegration an. Ihr Administrator hat Ihnen die S3-URI zur Verfügung gestellt.

    • KMS-Schlüssel-ID - Ein von Ihnen erstellter KMS-Schlüssel. Sie können dessen ARN angeben, um die Ausgabe der Snowflake-Abfrage zu verschlüsseln. Andernfalls verwendet Data Wrangler die Standardverschlüsselung.

  13. Wählen Sie Connect aus.

Sie können mit dem Import Ihrer Daten aus Snowflake beginnen, sobald Sie eine Verbindung hergestellt haben.

In Data Wrangler können Sie sich Ihre Data Warehouses, Datenbanken und Schemata sowie das Augensymbol anzeigen lassen, über das Sie sich eine Vorschau Ihrer Tabelle anzeigen lassen können. Wenn Sie das Symbol Tabellenvorschau ausgewählt haben, wird die Schemavorschau dieser Tabelle erzeugt. Sie müssen ein Warehouse auswählen, bevor Sie eine Tabellenvorschau sehen können.

Wichtig

Wenn Sie einen Datensatz mit Spalten vom Typ TIMESTAMP_TZ oder TIMESTAMP_LTZ importieren, fügen Sie ::string zu den Spaltennamen Ihrer Abfrage hinzu. Weitere Informationen finden Sie unter So entladen Sie TIMESTAMP_TZ- und TIMESTAMP_LTZ-Daten in eine Parquet-Datei.

Wenn Sie ein Data Warehouse, eine Datenbank und ein Schema ausgewählt haben, können Sie nun Abfragen schreiben und diese ausführen. Die Ausgabe zu Ihrer Abfrage wird unter Abfrageergebnisse angezeigt.

Wenn Sie sich für die Ausgabe Ihrer Abfrage entschieden haben, können Sie die Ausgabe Ihrer Abfrage in einen Data-Wrangler-Ablauf importieren, um Datentransformationen vorzunehmen.

Wenn Sie Ihre Daten importiert haben, navigieren Sie zu Ihrem Data-Wrangler-Ablauf und beginnen Sie damit, Transformationen hinzuzufügen. Eine Liste der verfügbaren Transformationen finden Sie unter Daten transformieren.

Daten von SaaS-Plattformen (Software-as-a-Service) importieren

Mit Data Wrangler können Sie Daten von mehr als vierzig SaaS-Plattformen (Software as a Service) importieren. Um Ihre Daten von Ihrer SaaS-Plattform zu importieren, müssen Sie oder Ihr Administrator Amazon verwenden, AppFlow um die Daten von der Plattform zu Amazon S3 oder Amazon Redshift zu übertragen. Weitere Informationen zu Amazon AppFlowfinden Sie unter Was ist Amazon AppFlow? Wenn Sie Amazon Redshift nicht zu verwenden brauchen, empfehlen wir, die Daten nach Amazon S3 zu übertragen, um das Verfahren zu vereinfachen.

Data Wrangler unterstützt die Übertragung von Daten von den folgenden SaaS-Plattformen:

Die obige Liste enthält Links zu weiteren Informationen dazu, wie Sie Ihre Datenquelle einrichten müssen. Sie oder Ihr Administrator können auf die obigen Links verweisen, sobald Sie die folgenden Informationen gelesen haben.

Wenn Sie in Ihrem Data-Wrangler-Ablauf zur Registerkarte Import navigieren, sehen Sie Datenquellen in den folgenden Abschnitten:

  • Verfügbar

  • Datenquellen einrichten

Sie können unter Verfügbar eine Verbindung zu Datenquellen herstellen, ohne dass eine zusätzliche Konfiguration erforderlich ist. Sie können die Datenquelle auswählen und Ihre Daten importieren.

Datenquellen unter Datenquellen einrichten erfordern, dass Sie oder Ihr Administrator Amazon verwenden, AppFlow um die Daten von der SaaS-Plattform zu Amazon S3 oder Amazon Redshift zu übertragen. Informationen zur Durchführung einer Übertragung finden Sie unter Verwenden von Amazon AppFlow zum Übertragen Ihrer Daten.

Wenn Sie die Datenübertragung durchgeführt haben, erscheint wird die SaaS-Plattform als Datenquelle unter Verfügbar. Sie können sie auswählen und die Daten, die Sie in Data Wrangler übertragen haben, importieren. Die Daten, die Sie übertragen haben, werden als Tabellen angezeigt, die Sie abfragen können.

Verwenden von Amazon AppFlow zum Übertragen Ihrer Daten

Amazon AppFlow ist eine Plattform, mit der Sie Daten von Ihrer SaaS-Plattform zu Amazon S3 oder Amazon Redshift übertragen können, ohne Code schreiben zu müssen. Um eine Datenübertragung durchzuführen, verwenden Sie die AWS Management Console.

Wichtig

Sie müssen sich vergewissern, dass Sie die Berechtigungen für die Durchführung einer Datenübertragung eingerichtet haben. Weitere Informationen finden Sie unter Amazon AppFlow -Berechtigungen.

Sobald Sie die Berechtigungen hinzugefügt haben, können Sie die Daten übertragen. In Amazon erstellen AppFlowSie einen Flow zur Übertragung der Daten. Ein Ablauf besteht aus einer Reihe von Konfigurationen. Sie können damit angeben, ob Sie die Datenübertragung nach einem Zeitplan ausführen oder ob Sie die Daten in separate Dateien partitionieren. Wenn Sie den Ablauf konfiguriert haben, führen Sie ihn aus, um die Daten zu übertragen.

Informationen zum Erstellen eines Flows finden Sie unter Erstellen von Flows in Amazon AppFlow. Informationen zum Ausführen eines Flows finden Sie unter Aktivieren eines Amazon- AppFlow Flows.

Gehen Sie nach der Übertragung der Daten wie folgt vor, um auf die Daten in Data Wrangler zuzugreifen.

Wichtig

Bevor Sie versuchen, auf Ihre Daten zuzugreifen, vergewissern Sie sich, dass für Ihre IAM-Rolle die folgende Richtlinie gilt:

{ "Version": "2012-10-17", "Statement": [ { "Effect": "Allow", "Action": "glue:SearchTables", "Resource": [ "arn:aws:glue:*:*:table/*/*", "arn:aws:glue:*:*:database/*", "arn:aws:glue:*:*:catalog" ] } ] }

Standardmäßig ist die IAM-Rolle, die Sie für den Zugriff auf Data Wrangler verwenden, die SageMakerExecutionRole. Weitere Informationen dazu, wie Richtlinien hinzugefügt werden, finden Sie unter IAM-Identitätsberechtigungen hinzufügen (Konsole).

Gehen Sie wie folgt vor, um eine Verbindung zu einer Datenquelle herzustellen.

  1. Melden Sie sich bei der Amazon SageMaker-Konsole an.

  2. Wählen Sie Studio.

  3. Wählen Sie App starten.

  4. Wählen Sie in der Auswahlliste Studio aus.

  5. Wählen Sie das Symbol Startseite aus.

  6. Wählen Sie Datenaus.

  7. Wählen Sie Data Wrangler.

  8. Wählen Sie Daten importieren aus.

  9. Wählen Sie unter Verfügbar die Datenquelle aus.

  10. Geben Sie im Feld Name den Namen der Verbindung ein.

  11. (Optional) Wählen Sie Erweiterte Konfiguration aus.

    1. Wählen Sie eine Arbeitsgruppe aus.

    2. Wenn Ihre Arbeitsgruppe den Amazon S3-Ausgabespeicherort nicht durchgesetzt hat oder wenn Sie keine Arbeitsgruppe verwenden, geben Sie einen Wert für den Amazon S3-Speicherort für die Abfrageergebnisse an.

    3. (Optional) Aktivieren Sie für Datenaufbewahrungsdauer das Kontrollkästchen, um eine Datenaufbewahrungsdauer festzulegen, und geben Sie die Anzahl der Tage an, für die die Daten gespeichert werden sollen, bevor sie gelöscht werden.

    4. (Optional) Data Wrangler speichert die Verbindung standardmäßig. Sie können das Kontrollkästchen deaktivieren und die Verbindung nicht speichern.

  12. Wählen Sie Connect aus.

  13. Geben Sie eine Abfrage an.

    Anmerkung

    Als Hilfestellung bei der Angabe einer Abfrage können Sie im linken Navigationsbereich eine Tabelle auswählen. Data Wrangler zeigt den Tabellennamen und eine Vorschau der Tabelle an. Wählen Sie das Symbol neben dem Tabellennamen aus, um den Namen zu kopieren. Den Tabellennamen können Sie in der Abfrage verwenden.

  14. Wählen Sie Ausführen aus.

  15. Wählen Sie Abfrage importieren aus.

  16. Geben Sie als Datensatzname den Namen des Datensatzes an.

  17. Wählen Sie Hinzufügen aus.

Wenn Sie zum Bildschirm Daten importieren navigieren, können Sie die Verbindung sehen, die Sie erstellt haben. Über die Verbindung können Sie weitere Daten importieren.

Speicher für importierte Daten

Wichtig

Wir empfehlen Ihnen dringend, den bewährten Methoden zum Schutz Ihres Amazon S3-Buckets zu folgen, indem Sie den bewährten Sicherheitsmethoden folgen.

Wenn Sie Daten von Amazon Athena oder Amazon Redshift abfragen, wird der abgefragte Datensatz automatisch in Amazon S3 gespeichert. Die Daten werden im Standard-S SageMaker S3Bucket für die AWS Region gespeichert, in der Sie Studio Classic verwenden.

Standard-S3-Buckets haben die folgende Namenskonvention: sagemaker-region-account number. Wenn Ihre Kontonummer beispielsweise 111122223333 lautet und Sie Studio Classic in verwendenus-east-1, werden Ihre importierten Datensätze in sagemaker-us-east-1-111122223333 gespeichert.

Data-Wrangler-Abläufe hängen von diesem Speicherort für Amazon S3-Datensätze ab. Daher sollten Sie diesen Datensatz in Amazon S3 nicht ändern, solange Sie einen abhängigen Ablauf verwenden. Wenn Sie diesen S3-Speicherort ändern und Ihren Datenablauf weiterhin verwenden möchten, müssen Sie alle Objekte in trained_parameters in Ihrer .flow-Datei entfernen. Laden Sie dazu die .flow-Datei von Studio Classic herunter und trained_parameterslöschen Sie für jede Instance von alle Einträge. Wenn Sie damit fertig sind, sollte trained_parameters ein leeres JSON-Objekt sein:

"trained_parameters": {}

Wenn Sie Ihren Datenablauf exportieren und zur Verarbeitung Ihrer Daten verwenden, bezieht sich die von Ihnen exportierte .flow-Datei auf diesen Datensatz in Amazon S3. In den folgenden Abschnitten erfahren Sie mehr dazu.

Speicher für Amazon Redshift-Import

Data Wrangler speichert die Datensätze, die sich aus Ihrer Abfrage ergeben, in einer Parquet-Datei in Ihrem Standard- SageMaker S3-Bucket.

Diese Datei wird unter dem folgenden Präfix (Verzeichnis) gespeichert: redshift/uuid/data/, wobei uuid eine eindeutige Kennung ist, die für jede Abfrage erstellt wird.

Wenn Ihr Standard-Bucket beispielsweise lautetsagemaker-us-east-1-111122223333, befindet sich ein einzelner Datensatz, der von Amazon Redshift abgefragt wurde, in s3://sagemaker-us-east-1-111122223333/redshift/uuid /data/.

Speicher für Amazon Athena-Import

Wenn Sie eine Athena-Datenbank abfragen und einen Datensatz importieren, speichert Data Wrangler den Datensatz sowie eine Teilmenge dieses Datensatzes oder Vorschaudateien in Amazon S3.

Der Datensatz, den Sie importieren, indem Sie Datensatz importieren auswählen, wird in Amazon S3 im Parquet-Format gespeichert.

Vorschaudateien werden im CSV-Format geschrieben, wenn Sie auf dem Athena-Importbildschirm Ausführen auswählen, und enthalten bis zu 100 Zeilen aus dem von Ihnen abgefragten Datensatz.

Der von Ihnen abgefragte Datensatz befindet sich unter dem Präfix (Verzeichnis): athena/ uuid/data/, wobei uuid eine eindeutige Kennung ist, die für jede Abfrage erstellt wird.

Wenn Ihr Standard-Bucket z.B. sagemaker-us-east-1-111122223333 lautet, befindet sich ein einzelner von Athena abgefragter Datensatz in s3://sagemaker-us-east-1-111122223333/athena/uuid/data/ example_dataset.parquet.

Die Teilmenge des Datensatzes, die zur Vorschau von Dataframes in Data Wrangler gespeichert wird, wird unter dem Präfix: athena/ abgespeichert.