Verwendung von Spaltenformaten für eine bessere Abfrageleistung - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwendung von Spaltenformaten für eine bessere Abfrageleistung

Spark kann verschiedene Eingabedateiformate verwenden, wie Apache Parquet, Optimized Row Columnar (ORC), und CSV. Jedoch Parquet funktioniert am besten innerhalb Spark SQL. Es bietet schnellere Laufzeiten, einen höheren Scandurchsatz, weniger Festplatten-I/O und niedrigere Betriebskosten. Spark kann nutzlose Daten automatisch filtern, indem Parquet Statistikdaten mithilfe von Push-down-Filtern, z. B. Min-Max-Statistiken, archivieren. Auf der anderen Seite können Sie Folgendes aktivieren Spark vektorisierter Parkettleser zum Lesen Parquet Dateien stapelweise. Wenn du verwendest Spark SQL Um Daten zu verarbeiten, empfehlen wir Ihnen, Folgendes zu verwenden Parquet Dateiformate, wenn möglich.