Laden von Datendateien - Amazon Redshift

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Laden von Datendateien

Quelldatendateien weisen verschiedene Formate auf und verwenden unterschiedliche Komprimierungsalgorithmen. Beim Laden von Daten mit dem COPY-Befehl lädt Amazon Redshift alle Dateien, auf die mit dem Amazon-S3-Bucket-Präfix verwiesen wird. (Bei dem Präfix handelt es sich um eine Zeichenfolge am Anfang des Objektschlüsselnamens.) Wenn sich das Präfix auf mehrere Dateien oder auf aufteilbare Dateien bezieht, lädt Amazon Redshift die Daten parallel und nutzt dabei die MPP-Architektur von Amazon Redshift. Dadurch wird der Workload auf die Knoten im Cluster verteilt. Wenn Sie dagegen Daten aus einer Datei laden, die nicht aufgeteilt werden kann, muss Amazon Redshift einen serialisierten Ladevorgang durchführen, was viel langsamer ist. In den folgenden Abschnitten wird die empfohlene Methode zum Laden verschiedener Dateitypen in Amazon Redshift je nach Format und Komprimierung beschrieben.

Laden von Daten aus Dateien, die aufgeteilt werden können

Die folgenden Dateien können automatisch aufgeteilt werden, wenn ihre Daten geladen werden:

  • unkomprimierte CSV-Dateien

  • mit BZIP komprimierte CSV-Dateien

  • spaltenbasierte Dateien (Parquet/ORC)

Amazon Redshift teilt Dateien mit mindestens 128 MB automatisch in Blöcke auf. Spaltenbasierte Dateien, insbesondere Parquet und ORC, werden nicht aufgeteilt, wenn sie weniger als 128 MB umfassen. Redshift verwendet zum Laden der Daten parallel arbeitende Slices. Dadurch ergibt sich beim Laden eine hohe Leistung.

Laden von Daten aus Dateien, die nicht aufgeteilt werden können

Dateitypen wie JSON oder CSV werden, wenn sie mit anderen Komprimierungsalgorithmen wie z. B. GZIP komprimiert wurden, nicht automatisch aufgeteilt. In diesen Fällen empfehlen wir, die Daten manuell in mehrere kleinere Dateien von ungefähr gleicher Größe zwischen 1 MB und 1 GB nach der Komprimierung aufzuteilen. Nutzen Sie zudem als Anzahl der Dateien ein Vielfaches der Anzahl der Slices in Ihrem Cluster. Weitere Informationen zum Aufteilen Ihrer Daten auf mehrere Dateien und Beispiele zur Verwendung von COPY zum Laden von Daten finden Sie unter So laden Sie Daten aus Amazon S3.