使用列式格式提高查询性能

Spark 可以使用各种输入文件格式，例如 Apache Parquet, Optimized Row Columnar (ORC)，以及 CSV。但是，Parquet 在内部效果最好 Spark SQL。它提供了更快的运行时间、更高的扫描吞吐量、更少的磁盘 I/O 和更低的操作成本。Spark 可以通过使用自动过滤无用的数据 Parquet 通过下推过滤器归档统计数据，例如最小-最大统计数据。另一方面，你可以启用 Spark 实木复合地板矢量化阅读器可供阅读 Parquet 按批处理的文件。当你使用时 Spark SQL 要处理数据，我们建议您使用 Parquet 文件格式（如果可能）。

Javascript 在您的浏览器中被禁用或不可用。

要使用 Amazon Web Services 文档，必须启用 Javascript。请参阅浏览器的帮助页面以了解相关说明。