Verwendung von Spaltenformaten für eine bessere Abfrageleistung

Spark kann verschiedene Eingabedateiformate verwenden, wie Apache Parquet, Optimized Row Columnar (ORC), und CSV. Jedoch Parquet funktioniert am besten innerhalb Spark SQL. Es bietet schnellere Laufzeiten, einen höheren Scandurchsatz, weniger Festplatten-I/O und niedrigere Betriebskosten. Spark kann nutzlose Daten automatisch filtern, indem Parquet Statistikdaten mithilfe von Push-down-Filtern, z. B. Min-Max-Statistiken, archivieren. Auf der anderen Seite können Sie Folgendes aktivieren Spark vektorisierter Parkettleser zum Lesen Parquet Dateien stapelweise. Wenn du verwendest Spark SQL Um Daten zu verarbeiten, empfehlen wir Ihnen, Folgendes zu verwenden Parquet Dateiformate, wenn möglich.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Verwenden des kostenbasierten Optimierers

Häufig gestellte Fragen