As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Usando dicas de particionamento em Spark 3.0.0
Spark dicas de particionamentoCOALESCE
, e. REPARTITION
REPARTITION_BY_RANGE
Essas dicas são semelhantes ao conjunto de dados APIs, como coalesce
repartition
, e. repartitionByRange
As dicas a seguir ajudam você a controlar o número de arquivos de saída no Spark SQL, que ajuda você a ajustar o desempenho:
-
Coalescer - Reduza o número de partições para o número especificado de partições. Um número de partição é o único parâmetro da
COALESCE
dica. -
Repartição - Reparticione para o número especificado de partições usando as expressões de particionamento especificadas. Os parâmetros de
REPARTITION
dica são um número de partição, nomes de colunas ou ambos. -
Repartição por intervalo - Repartição para o número especificado de partições usando as expressões de particionamento especificadas. Os nomes das colunas são um parâmetro obrigatório para a
REPARTITION_BY_RANGE
dica, e um número de partição é opcional. -
Rebalancear - reequilibre as partições de saída do resultado da consulta para que cada partição tenha um tamanho razoável.
REBALANCE
os parâmetros de dica são um número de partição inicial, nomes de colunas ou ambos ou nenhum.