Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Laden von Daten aus Remote-Hosts
Sie können den Befehl COPY verwenden, um Daten parallel Daten aus einem oder mehreren Remote-Hosts wie Amazon-EC2-Instances oder anderen Computern zu laden. COPY stellt über SSH eine Verbindung zu den Remote-Hosts her und führt Befehle auf den Remote-Hosts aus, um Textausgaben zu generieren.
Beim Remote-Host kann es sich um eine Amazon-EC2-Linux-Instance oder einen anderen Unix- oder Linux-Computer handeln, der für die Annahme von SSH-Verbindungen konfiguriert wurde. In diesem Handbuch wird angenommen, dass es sich bei Ihrem Remote-Host um eine Amazon-EC2-Instance handelt. Wenn sich das Verfahren für eine andere Art von Computer unterscheidet, wird im Handbuch auf den Unterschied hingewiesen.
Amazon Redshift kann eine Verbindung zu mehreren Hosts herstellen und für jeden Host mehrere SSH-Verbindungen öffnen. Amazon Redshift sendet über jede Verbindung einen eindeutigen Befehl, um die Textausgabe an die Standardausgabe des Hosts zu generieren. Amazon Redshift liest diese dann wie eine Textdatei.
Bevor Sie beginnen
Folgendes sollte vorhanden sein, bevor Sie den Vorgang starten:
-
Ein oder mehrere Host-Computer, beispielsweise Amazon-EC2-Instances, mit denen Sie über SSH eine Verbindung herstellen können.
-
Datenquellen auf den Hosts.
Sie stellen Befehle bereit, die der Amazon-Redshift-Cluster auf den Hosts ausführt, um die Textausgabe zu generieren. Nachdem der Cluster eine Verbindung mit einem Host hergestellt hat, führt der COPY-Befehl die Befehle aus, liest den Text aus der Standardausgabe des Hosts und lädt die Daten parallel in eine Amazon-Redshift-Tabelle. Die Textausgabe muss ein Format aufweisen, das der COPY-Befehl verarbeiten kann. Weitere Informationen finden Sie unter Vorbereiten der Eingabedaten
-
Zugriff auf die Hosts von Ihrem Computer aus.
Im Fall einer Amazon-EC2-Instance verwenden Sie eine SSH-Verbindung, um auf den Host zuzugreifen. Sie müssen auf den Host zugreifen, um den öffentlichen Schlüssel des Amazon-Redshift-Clusters zu der Datei des Hosts mit den autorisierten Schlüsseln hinzuzufügen.
-
Ein aktiver Amazon Redshift Cluster.
Weitere Informationen zum Starten eines Clusters finden Sie im Handbuch Erste Schritte mit Amazon Redshift.
Prozess für das Laden von Daten
In diesem Abschnitt wird das Laden von Daten aus Remote-Hosts beschrieben. In den folgenden Abschnitten finden Sie detaillierte Anweisungen für die einzelnen Schritte.
-
Schritt 1: Abrufen des öffentlichen Schlüssels des Clusters und der IP-Adressen der Cluster-Knoten
Der öffentliche Schlüssel ermöglicht den Knoten des Amazon-Redshift-Clusters die Herstellung von SSH-Verbindungen zu den Remote-Hosts. Sie verwenden die IP-Adresse der einzelnen Cluster-Knoten, um die Host-Sicherheitsgruppen oder die Host-Firewall zu konfigurieren, damit diese den Zugriff von Ihrem Amazon-Redshift-Cluster unter Verwendung dieser IP-Adressen gestattet/gestatten.
-
Sie fügen den öffentlichen Schlüssel des Amazon-Redshift-Clusters zur Datei des Hosts hinzu, die die autorisierten Schlüssel enthält, damit der Host den Amazon-Redshift-Cluster erkennt und die SSH-Verbindung akzeptiert.
-
Ändern Sie bei Amazon EC2 die Sicherheitsgruppen der Instance, indem Sie Eingangsregeln für die Akzeptierung der Amazon-Redshift-IP-Adressen hinzufügen. Im Fall anderer Hosts ändern Sie die Firewall, sodass Ihre Amazon-Redshift-Knoten SSH-Verbindungen zum Remote-Host herstellen können.
-
Schritt 4: Abrufen des öffentlichen Schlüssels für den Host
Sie können optional angeben, dass Amazon Redshift den öffentlichen Schlüssel angeben soll, um den Host zu identifizieren. Sie müssen den öffentlichen Schlüssel suchen und den Text in Ihre Manifestdatei kopieren.
-
Schritt 5: Erstellen einer Manifestdatei
Das Manifest ist eine Textdatei im JSON-Format, das die Details enthält, die Amazon Redshift benötigt, um eine Verbindung zu den Hosts herzustellen und die Daten abzurufen.
-
Schritt 6: Hochladen der Manifestdatei in einen Amazon S3 Bucket
Amazon Redshift liest das Manifest und verwendet diese Informationen, um eine Verbindung zum Remote-Host herzustellen. Wenn sich der Amazon-S3-Bucket nicht in derselben Region wie Ihr Amazon-Redshift-Cluster befindet, müssen Sie die Option REGION verwenden, um die Region anzugeben, in der sich die Daten befinden.
-
Schritt 7: Ausführen des COPY-Befehls, um die Daten zu laden
Führen Sie den COPY-Befehl aus einer Amazon-Redshift-Datenbank aus, um die Daten in eine Amazon-Redshift-Tabelle zu laden.