Utilizzo delle funzioni SQL Window anziché join e groupBy - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo delle funzioni SQL Window anziché join e groupBy

Funzioni delle finestre (Spark documentazione) esegue un calcolo su un gruppo di righe, chiamato finestra, che in qualche modo si riferiscono al record corrente. Ad esempio, possono trovarsi nella stessa partizione o frame della riga corrente. Le funzioni delle finestre sono integrate in Spark e sono simili alle funzioni aggregate. Le funzioni aggregate, come SUM or MAX, operano su un gruppo di righe e calcolano un singolo valore restituito per ogni gruppo. Le funzioni della finestra sono utili per l'elaborazione di attività, come il calcolo di una media mobile o l'accesso al valore delle righe in base alla posizione relativa della riga corrente.

Il Spark groupByla funzione raccoglie i dati in gruppi ed esegue funzioni aggregate sui dati raggruppati. Quando si utilizza, groupBy Spark aggrega prima in parte i dati e poi mescola il set di dati ridotto. Quando si utilizzano le funzioni della finestra, l'intero set di dati viene mescolato. Le funzioni della finestra possono fornire tempi di esecuzione più rapidi.

In set di dati molto grandi, se la cardinalità della colonna è grande, si consigliano le funzioni della finestra. Tuttavia, se la cardinalità della colonna è piccola, l'aggregazione dei dati è ridotta e il risultato aggregato può essere trasmesso nel join.