Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Verwenden von Partitionierungshinweisen in Spark 3.0.0
Spark PartitionierungshinweiseCOALESCE
REPARTITION
, und. REPARTITION_BY_RANGE
Diese Hinweise ähneln denen des Datasets APIs, z. B. coalesce
repartition
, undrepartitionByRange
. Die folgenden Hinweise helfen Ihnen dabei, die Anzahl der Ausgabedateien in zu kontrollieren Spark SQL, das Ihnen hilft, die Leistung zu optimieren:
-
Zusammenführen — Reduziert die Anzahl der Partitionen auf die angegebene Anzahl von Partitionen. Eine Partitionsnummer ist der einzige Parameter des
COALESCE
Hinweises. -
Repartition — Neupartitionierung auf die angegebene Anzahl von Partitionen mithilfe der angegebenen Partitionierungsausdrücke. Die
REPARTITION
Hinweisparameter sind eine Partitionsnummer, Spaltennamen oder beides. -
Verteilung nach Bereichen — Neupartitionierung auf die angegebene Anzahl von Partitionen mithilfe der angegebenen Partitionierungsausdrücke. Spaltennamen sind ein erforderlicher Parameter für den
REPARTITION_BY_RANGE
Hinweis, und eine Partitionsnummer ist optional. -
Rebalance — Die Ausgabepartitionen der Abfrageergebnisse werden neu verteilt, sodass jede Partition eine angemessene Größe hat.
REBALANCE
Hinweisparameter sind eine anfängliche Partitionsnummer, Spaltennamen oder beides oder keines von beiden.