使用單欄式格式以獲得更好的查詢效能 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

使用單欄式格式以獲得更好的查詢效能

Spark 可以使用各種輸入檔案格式,例如 Apache Parquet、 Optimized Row Columnar (ORC)和 CSV。不過, 在 中Parquet效果最佳Spark SQL。它提供更快的執行時間、更高的掃描輸送量、更低的磁碟 I/O 和更低的操作成本。 Spark可以透過按下推篩選條件使用Parquet檔案統計資料來自動篩選無用資料,例如最小/最大統計資料。另一方面,您可以啟用 parquet Spark 向量化讀取器,以批次讀取Parquet檔案。當您使用 Spark SQL 處理資料時,我們建議您盡可能使用Parquet檔案格式。