Utilizzo dei suggerimenti per il partizionamento in Spark 3.0.0 - AWS Guida prescrittiva

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo dei suggerimenti per il partizionamento in Spark 3.0.0

Spark i suggerimenti sul partizionamento possono aiutarti a ottimizzare le prestazioni e ridurre il numero di file di output. Spark SQL supporta suggerimenti per il partizionamento, ad esempio, e. COALESCE REPARTITION REPARTITION_BY_RANGE Questi suggerimenti sono simili al Dataset APIs, ad esempio, e. coalesce repartition repartitionByRange I seguenti suggerimenti consentono di controllare il numero di file di output in Spark SQL, che consente di ottimizzare le prestazioni:

  • Coalesce: riduce il numero di partizioni al numero di partizioni specificato. Il numero di partizione è l'unico parametro del suggerimento. COALESCE

  • Ripartizione: ripartiziona il numero di partizioni specificato utilizzando le espressioni di partizionamento specificate. I parametri di REPARTITION suggerimento sono il numero di partizione, i nomi delle colonne o entrambi.

  • Ripartizione per intervallo: ripartiziona il numero specificato di partizioni utilizzando le espressioni di partizionamento specificate. I nomi delle colonne sono un parametro obbligatorio per il REPARTITION_BY_RANGE suggerimento e il numero di partizione è facoltativo.

  • Ribilanciamento: ribilancia le partizioni di output dei risultati della query in modo che ogni partizione abbia una dimensione ragionevole. REBALANCEI parametri di suggerimento sono un numero di partizione iniziale, i nomi delle colonne o entrambi o nessuno dei due.