本文属于机器翻译版本。若本译文内容与英语原文存在差异,则一律以英文原文为准。
使用列式格式提高查询性能
Spark 可以使用各种输入文件格式,例如 Apache Parquet, Optimized Row Columnar (ORC),以及 CSV。但是,Parquet 在内部效果最好 Spark SQL。 它提供了更快的运行时间、更高的扫描吞吐量、更少的磁盘 I/O 和更低的操作成本。Spark 可以通过使用自动过滤无用的数据 Parquet 通过下推过滤器归档统计数据,例如最小-最大统计数据。另一方面,你可以启用 Spark 实木复合地板矢量化阅读器可供阅读 Parquet 按批处理的文件。当你使用时 Spark SQL 要处理数据,我们建议您使用 Parquet 文件格式(如果可能)。