Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwenden Sie spaltenorientierte Speicherformate
Apache Parquet
Spaltenbasierte Speicherformate haben die folgenden Eigenschaften, wodurch sie sich für die Verwendung mit Athena eignen:
-
Komprimierung nach Spalte mit dem für den Spaltendatentyp ausgewählten Komprimierungsalgorithmus, um Speicherplatz in Amazon S3 zu sparen und Festplattenspeicher und die I/O-Vorgänge während der Abfrageverarbeitung zu reduzieren.
-
Prädikats-Pushdown in Parquet und ORC ermöglicht es Athena-Abfragen, nur die Blöcke abzurufen, die sie benötigen, wodurch die Abfrageleistung verbessert wird. Wenn eine Athena-Abfrage Werte aus bestimmten Spalten von Ihren Daten erhält, verwendet es Statistiken von Datenblockprädikaten, wie z. B. Max.-/Min.-Werte, um festzustellen, ob der Block zu lesen oder zu überspringen ist.
-
Die Aufteilung von Daten in Parquet ORC ermöglicht es Athena, das Lesen von Daten auf mehrere Leser aufzuteilen und die Parallelität bei der Abfrageverarbeitung zu erhöhen.
Um Ihre vorhandenen Rohdaten aus anderen Speicherformaten in Parquet oder zu konvertierenORC, können Sie CREATETABLEAS SELECT (CTAS) -Abfragen in Athena ausführen und ein Datenspeicherformat als Parquet oder angeben oder ORC den AWS Glue Crawler verwenden.
Wählen Sie zwischen Parquet und ORC
Die Wahl zwischen ORC (Optimized Row Columnar) und Parquet hängt von Ihren spezifischen Nutzungsanforderungen ab.
Apache Parquet bietet effiziente Datenkomprimierungs- und Kodierungsschemata und ist ideal für die Ausführung komplexer Abfragen und die Verarbeitung großer Datenmengen. Parquet ist für die Verwendung mit Apache Arrow
ORCbietet eine effiziente Möglichkeit, Hive-Daten zu speichern. ORCDateien sind oft kleiner als Parquet-Dateien, und ORC Indizes können Abfragen beschleunigen. ORCUnterstützt außerdem komplexe Typen wie Strukturen, Maps und Listen.
Beachten Sie bei der Auswahl zwischen Parquet und ORC Folgendes:
Abfrageleistung – Da Parquet eine breitere Palette von Abfragetypen unterstützt, ist Parquet möglicherweise die bessere Wahl, wenn Sie komplexe Abfragen ausführen möchten.
Komplexe Datentypen — Wenn Sie komplexe Datentypen verwenden, ist ORC dies möglicherweise die bessere Wahl, da es ein breiteres Spektrum an komplexen Datentypen unterstützt.
Dateigröße — Wenn Speicherplatz ein Problem darstellt, führt dies in ORC der Regel zu kleineren Dateien, wodurch die Speicherkosten gesenkt werden können.
Komprimierung — Sowohl Parquet als auch Parquet ORC bieten eine gute Komprimierung, aber welches Format für Sie am besten geeignet ist, hängt von Ihrem spezifischen Anwendungsfall ab.
Evolution — Sowohl Parquet als auch Parquet ORC unterstützen die Schemaentwicklung, was bedeutet, dass Sie im Laufe der Zeit Spalten hinzufügen, entfernen oder ändern können.
Sowohl Parquet als auch ORC sind eine gute Wahl für Big-Data-Anwendungen. Berücksichtigen Sie jedoch die Anforderungen Ihres Szenarios, bevor Sie sich entscheiden. Möglicherweise möchten Sie Benchmarks für Ihre Daten und Abfragen durchführen, um herauszufinden, welches Format für Ihren Anwendungsfall besser geeignet ist.
In spaltenorientierte Formate konvertieren
-
Sie können
CREATE TABLE AS
(CTAS) -Abfragen verwenden, um Daten in Parquet oder ORC in einem Schritt zu konvertieren. Ein Beispiel finden Sie unter Beispiel: Schreiben von Abfrageergebnissen in ein anderes Format auf der Beispiele für CTAS Abfragen-Seite. -
Informationen zur Verwendung von Athena für die ETL Transformation von Daten von CSV nach Parquet finden Sie unterVerwendung CTAS und INSERT INTO Zweck ETL und Datenanalyse.
-
Informationen zur Ausführung eines AWS Glue Jobs zur Transformation von CSV Daten in das Parquet-Format finden Sie im Abschnitt „Transformieren der Daten vom CSV in das Parquet-Format“ im AWS Big-Data-Blogbeitrag Build a Data Lake Foundation with AWS Glue and Amazon S3
. AWS Glue unterstützt die Verwendung derselben Technik zur Konvertierung von CSV Daten in oder von JSON Daten in Parquet oderORC. ORC