Usando dicas de particionamento em Spark 3.0.0 - AWS Orientação prescritiva

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Usando dicas de particionamento em Spark 3.0.0

Spark dicas de particionamento podem ajudá-lo a ajustar o desempenho e reduzir o número de arquivos de saída. Spark SQL suporta dicas de particionamento, comoCOALESCE, e. REPARTITION REPARTITION_BY_RANGE Essas dicas são semelhantes ao conjunto de dados APIs, como coalescerepartition, e. repartitionByRange As dicas a seguir ajudam você a controlar o número de arquivos de saída no Spark SQL, que ajuda você a ajustar o desempenho:

  • Coalescer - Reduza o número de partições para o número especificado de partições. Um número de partição é o único parâmetro da COALESCE dica.

  • Repartição - Reparticione para o número especificado de partições usando as expressões de particionamento especificadas. Os parâmetros de REPARTITION dica são um número de partição, nomes de colunas ou ambos.

  • Repartição por intervalo - Repartição para o número especificado de partições usando as expressões de particionamento especificadas. Os nomes das colunas são um parâmetro obrigatório para a REPARTITION_BY_RANGE dica, e um número de partição é opcional.

  • Rebalancear - reequilibre as partições de saída do resultado da consulta para que cada partição tenha um tamanho razoável. REBALANCEos parâmetros de dica são um número de partição inicial, nomes de colunas ou ambos ou nenhum.