Verwenden Sie spaltenorientierte Speicherformate - Amazon Athena

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden Sie spaltenorientierte Speicherformate

Apache Parquet und ORCsind spaltenförmige Speicherformate, die für den schnellen Abruf von Daten optimiert und in AWS analytischen Anwendungen verwendet werden.

Spaltenbasierte Speicherformate haben die folgenden Eigenschaften, wodurch sie sich für die Verwendung mit Athena eignen:

  • Komprimierung nach Spalte mit dem für den Spaltendatentyp ausgewählten Komprimierungsalgorithmus, um Speicherplatz in Amazon S3 zu sparen und Festplattenspeicher und die I/O-Vorgänge während der Abfrageverarbeitung zu reduzieren.

  • Prädikats-Pushdown in Parquet und ORC ermöglicht es Athena-Abfragen, nur die Blöcke abzurufen, die sie benötigen, wodurch die Abfrageleistung verbessert wird. Wenn eine Athena-Abfrage Werte aus bestimmten Spalten von Ihren Daten erhält, verwendet es Statistiken von Datenblockprädikaten, wie z. B. Max.-/Min.-Werte, um festzustellen, ob der Block zu lesen oder zu überspringen ist.

  • Die Aufteilung von Daten in Parquet ORC ermöglicht es Athena, das Lesen von Daten auf mehrere Leser aufzuteilen und die Parallelität bei der Abfrageverarbeitung zu erhöhen.

Um Ihre vorhandenen Rohdaten aus anderen Speicherformaten in Parquet oder zu konvertierenORC, können Sie CREATETABLEAS SELECT (CTAS) -Abfragen in Athena ausführen und ein Datenspeicherformat als Parquet oder angeben oder ORC den AWS Glue Crawler verwenden.

Wählen Sie zwischen Parquet und ORC

Die Wahl zwischen ORC (Optimized Row Columnar) und Parquet hängt von Ihren spezifischen Nutzungsanforderungen ab.

Apache Parquet bietet effiziente Datenkomprimierungs- und Kodierungsschemata und ist ideal für die Ausführung komplexer Abfragen und die Verarbeitung großer Datenmengen. Parquet ist für die Verwendung mit Apache Arrow optimiert. Dies kann von Vorteil sein, wenn Sie Tools verwenden, die sich auf Arrow beziehen.

ORCbietet eine effiziente Möglichkeit, Hive-Daten zu speichern. ORCDateien sind oft kleiner als Parquet-Dateien, und ORC Indizes können Abfragen beschleunigen. ORCUnterstützt außerdem komplexe Typen wie Strukturen, Maps und Listen.

Beachten Sie bei der Auswahl zwischen Parquet und ORC Folgendes:

Abfrageleistung – Da Parquet eine breitere Palette von Abfragetypen unterstützt, ist Parquet möglicherweise die bessere Wahl, wenn Sie komplexe Abfragen ausführen möchten.

Komplexe Datentypen — Wenn Sie komplexe Datentypen verwenden, ist ORC dies möglicherweise die bessere Wahl, da es ein breiteres Spektrum an komplexen Datentypen unterstützt.

Dateigröße — Wenn Speicherplatz ein Problem darstellt, führt dies in ORC der Regel zu kleineren Dateien, wodurch die Speicherkosten gesenkt werden können.

Komprimierung — Sowohl Parquet als auch Parquet ORC bieten eine gute Komprimierung, aber welches Format für Sie am besten geeignet ist, hängt von Ihrem spezifischen Anwendungsfall ab.

Evolution — Sowohl Parquet als auch Parquet ORC unterstützen die Schemaentwicklung, was bedeutet, dass Sie im Laufe der Zeit Spalten hinzufügen, entfernen oder ändern können.

Sowohl Parquet als auch ORC sind eine gute Wahl für Big-Data-Anwendungen. Berücksichtigen Sie jedoch die Anforderungen Ihres Szenarios, bevor Sie sich entscheiden. Möglicherweise möchten Sie Benchmarks für Ihre Daten und Abfragen durchführen, um herauszufinden, welches Format für Ihren Anwendungsfall besser geeignet ist.

In spaltenorientierte Formate konvertieren

Zu den Optionen für die einfache Konvertierung von Quelldaten wie JSON oder CSV in ein Spaltenformat gehören die Verwendung CREATE TABLE von AS-Abfragen oder das Ausführen von Jobs in. AWS Glue