Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
So laden Sie Daten aus Amazon EMR:
Sie können den COPY-Befehl verwenden, um Daten parallel aus einem Amazon-EMR-Cluster zu laden, der für das Schreiben von Textdateien in das Hadoop Distributed File System (HDFS) des Clusters in Form von Dateien mit fester Breite, zeichenbegrenzten Dateien, CSV-Dateien oder JSON-Dateien konfiguriert wurde.
Prozess zum Laden von Daten aus Amazon EMR
In diesem Abschnitt wird das Laden von Daten aus einem Amazon-EMR-Cluster beschrieben. In den folgenden Abschnitten finden Sie detaillierte Anweisungen für die einzelnen Schritte.
-
Schritt 1: Konfigurieren von IAM-Berechtigungen
Die Benutzer, die den Amazon-EMR-Cluster erstellen und den COPY-Befehl von Amazon Redshift ausführen, müssen die notwendigen Berechtigungen besitzen.
-
Schritt 2: Erstellen eines Amazon-EMR-Clusters
Konfigurieren Sie den Cluster für die Ausgabe von Textdateien zum Hadoop Distributed File System (HDFS). Sie benötigen die ID des Amazon-EMR-Clusters und das öffentliche Haupt-DNS des Clusters (den Endpunkt für die Amazon-EC2-Instance, die den Cluster hostet).
-
Der öffentliche Schlüssel ermöglicht den Knoten des Amazon-Redshift-Clusters die Herstellung von SSH-Verbindungen zu den Hosts. Sie verwenden die IP-Adresse der einzelnen Cluster-Knoten, um die Host-Sicherheitsgruppen zu konfigurieren, damit diese den Zugriff von Ihrem Amazon-Redshift-Cluster unter Verwendung dieser IP-Adressen gestatten.
-
Sie fügen den öffentlichen Schlüssel des Amazon-Redshift-Clusters zur Datei des Hosts hinzu, die die autorisierten Schlüssel enthält, damit der Host den Amazon-Redshift-Cluster erkennt und die SSH-Verbindung akzeptiert.
-
Ändern Sie die Sicherheitsgruppen der Amazon-EMR-Instance, indem Sie Eingaberegeln für die Akzeptierung der Amazon-Redshift-IP-Adressen hinzufügen.
-
Schritt 6: Ausführen des COPY-Befehls, um die Daten zu laden
Führen Sie den COPY-Befehl aus einer Amazon-Redshift-Datenbank aus, um die Daten in eine Amazon-Redshift-Tabelle zu laden.