Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menggunakan fungsi jendela SQL alih-alih bergabung dan GroupBy
Fungsi jendelaSUM
atau MAX
, beroperasi pada sekelompok baris dan menghitung nilai pengembalian tunggal untuk setiap grup. Fungsi jendela berguna untuk memproses tugas, seperti menghitung rata-rata bergerak atau mengakses nilai baris berdasarkan posisi relatif dari baris saat ini.
Bagian Spark groupBy
fungsi mengumpulkan data ke dalam kelompok dan melakukan fungsi agregat pada data yang dikelompokkan. Ketika Anda menggunakangroupBy
, Spark sebagian mengumpulkan data terlebih dahulu dan kemudian mengacak kumpulan data yang dikurangi. Saat Anda menggunakan fungsi jendela, seluruh kumpulan data diacak. Fungsi jendela dapat memberikan runtime yang lebih cepat.
Dalam kumpulan data yang sangat besar, jika kardinalitas kolom besar, maka fungsi jendela direkomendasikan. Namun, jika kardinalitas kolom kecil, agregasi data kecil, dan hasil agregat dapat disiarkan dalam gabungan.