Tutorial: So laden Sie Daten aus Amazon S3 - Amazon Redshift

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Tutorial: So laden Sie Daten aus Amazon S3

In diesem Tutorial durchlaufen Sie den kompletten Prozess des Ladens von Daten in Ihre Amazon-Redshift-Datenbanktabellen aus Datendateien in einem Amazon-S3-Bucket.

In diesem Tutorial führen Sie folgende Aufgaben aus:

  • Laden Sie Datendateien als kommagetrennte Werte (CSV), als durch bestimmte Zeichen getrennte Werte und Formate mit fester Breite herunter.

  • Erstellen eines Amazon-S3-Buckets und Upload der Datendateien zu diesem Bucket.

  • Starten eines Amazon-Redshift-Clusters und Erstellen von Datenbanktabellen.

  • Verwenden von COPY-Befehlen zum Laden der Tabellen aus den Datendateien auf Amazon S3.

  • Beheben von Ladefehlern und Modifizieren Ihrer COPY-Befehle zur Behebung der Fehler.

Geschätzte Zeit: 60 Minuten

Geschätzte Kosten 1,00 USD pro Stunde für den Cluster

Voraussetzungen

Sie benötigen die folgenden Voraussetzungen:

  • Ein AWS Konto zum Starten eines Amazon Redshift Redshift-Clusters und zum Erstellen eines Buckets in Amazon S3.

  • Ihre AWS Anmeldeinformationen (IAM-Rolle) zum Laden von Testdaten aus Amazon S3. Wenn Sie eine neue IAM-Rolle benötigen, wechseln Sie zu Erstellen von IAM-Rollen.

  • Ein SQL-Client, z. B. der Konsolenabfrage-Editor von Amazon Redshift.

Dieses Tutorial kann unabhängig von anderen absolviert werden. Zusätzlich zu diesem Tutorial empfehlen wir die folgenden Tutorials, um ein umfassenderes Verständnis vom Entwurf und von der Verwendung von Amazon-Redshift-Datenbanken zu erhalten:

Übersicht

Sie können zum Hinzufügen von Daten zu Ihren Amazon-Redshift-Tabellen einen INSERT-Befehl oder einen COPY-Befehl verwenden. Der COPY-Befehl bietet den Umfang und die Geschwindigkeit eines Data Warehouse von Amazon Redshift und ist damit um ein Vielfaches schneller und effizienter als INSERT-Befehle.

Der COPY-Befehl nutzt die massive Parallelverarbeitungsarchitektur (Massively Parallel Processing, MPP) von Amazon Redshift, um Daten parallel aus mehreren Datenquellen zu lesen und zu laden. Sie können aus Datendateien in Amazon S3, Amazon EMR oder auf jedem Remote-Host laden, der über eine Secure Shell (SSH)-Verbindung erreichbar ist. Oder Sie können direkt aus einer Amazon-DynamoDB-Tabelle laden.

In diesem Tutorial verwenden Sie den Befehl COPY, um Daten aus Amazon S3 zu laden. Viele der hier vorgestellten Prinzipien gelten auch für das Laden aus anderen Datenquellen.

Weitere Informationen zur Verwendung des COPY-Befehls finden Sie in diesen Ressourcen:

Schritte