Utilizzo dei suggerimenti per il partizionamento in Spark 3.0.0

Spark i suggerimenti sul partizionamento possono aiutarti a ottimizzare le prestazioni e ridurre il numero di file di output. Spark SQL supporta suggerimenti per il partizionamento, ad esempio, e. COALESCE REPARTITION REPARTITION_BY_RANGE Questi suggerimenti sono simili al Dataset APIs, ad esempio, e. coalesce repartition repartitionByRange I seguenti suggerimenti consentono di controllare il numero di file di output in Spark SQL, che consente di ottimizzare le prestazioni:

Coalesce: riduce il numero di partizioni al numero di partizioni specificato. Il numero di partizione è l'unico parametro del suggerimento. COALESCE
Ripartizione: ripartiziona il numero di partizioni specificato utilizzando le espressioni di partizionamento specificate. I parametri di REPARTITION suggerimento sono il numero di partizione, i nomi delle colonne o entrambi.
Ripartizione per intervallo: ripartiziona il numero specificato di partizioni utilizzando le espressioni di partizionamento specificate. I nomi delle colonne sono un parametro obbligatorio per il REPARTITION_BY_RANGE suggerimento e il numero di partizione è facoltativo.
Ribilanciamento: ribilancia le partizioni di output dei risultati della query in modo che ogni partizione abbia una dimensione ragionevole. REBALANCEI parametri di suggerimento sono un numero di partizione iniziale, i nomi delle colonne o entrambi o nessuno dei due.

Avvertimento JavaScript è disabilitato o non è disponibile nel tuo browser.

Per usare la documentazione AWS, JavaScript deve essere abilitato. Consulta le pagine della guida del browser per le istruzioni.

Convenzioni dei documenti

Utilizzo del formato colonnare durante la memorizzazione nella cache

Utilizzo Adaptive Query Execution