Menggunakan format kolumnar untuk kinerja kueri yang lebih baik - AWS Panduan Preskriptif

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan format kolumnar untuk kinerja kueri yang lebih baik

Spark dapat menggunakan berbagai format file input, seperti Apache Parquet, Optimized Row Columnar (ORC), dan CSV. Namun, Parquet bekerja paling baik di dalam Spark SQL. Ini memberikan runtime yang lebih cepat, throughput pemindaian yang lebih tinggi, pengurangan disk I/O, dan biaya operasi yang lebih rendah. Spark dapat secara otomatis menyaring data yang tidak berguna dengan menggunakan Parquet file data statistik dengan filter push-down, seperti statistik min-max. Di sisi lain, Anda dapat mengaktifkan Spark pembaca vektor parket untuk dibaca Parquet file berdasarkan batch. Saat Anda menggunakan Spark SQL Untuk memproses data, kami sarankan Anda menggunakan Parquet format file jika memungkinkan.