Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.
Utilizzo delle funzioni SQL Window anziché join e groupBy
Funzioni delle finestreSUM
or MAX
, operano su un gruppo di righe e calcolano un singolo valore restituito per ogni gruppo. Le funzioni della finestra sono utili per l'elaborazione di attività, come il calcolo di una media mobile o l'accesso al valore delle righe in base alla posizione relativa della riga corrente.
Il Spark groupBy
la funzione raccoglie i dati in gruppi ed esegue funzioni aggregate sui dati raggruppati. Quando si utilizza, groupBy
Spark aggrega prima in parte i dati e poi mescola il set di dati ridotto. Quando si utilizzano le funzioni della finestra, l'intero set di dati viene mescolato. Le funzioni della finestra possono fornire tempi di esecuzione più rapidi.
In set di dati molto grandi, se la cardinalità della colonna è grande, si consigliano le funzioni della finestra. Tuttavia, se la cardinalità della colonna è piccola, l'aggregazione dei dati è ridotta e il risultato aggregato può essere trasmesso nel join.