Verwenden von Partitionierungshinweisen in Spark 3.0.0

Spark Partitionierungshinweise können Ihnen helfen, die Leistung zu optimieren und die Anzahl der Ausgabedateien zu reduzieren. Spark SQL unterstützt Partitionierungshinweise wie COALESCEREPARTITION, und. REPARTITION_BY_RANGE Diese Hinweise ähneln denen des Datasets APIs, z. B. coalescerepartition, undrepartitionByRange. Die folgenden Hinweise helfen Ihnen dabei, die Anzahl der Ausgabedateien in zu kontrollieren Spark SQL, das Ihnen hilft, die Leistung zu optimieren:

Zusammenführen — Reduziert die Anzahl der Partitionen auf die angegebene Anzahl von Partitionen. Eine Partitionsnummer ist der einzige Parameter des COALESCE Hinweises.
Repartition — Neupartitionierung auf die angegebene Anzahl von Partitionen mithilfe der angegebenen Partitionierungsausdrücke. Die REPARTITION Hinweisparameter sind eine Partitionsnummer, Spaltennamen oder beides.
Verteilung nach Bereichen — Neupartitionierung auf die angegebene Anzahl von Partitionen mithilfe der angegebenen Partitionierungsausdrücke. Spaltennamen sind ein erforderlicher Parameter für den REPARTITION_BY_RANGE Hinweis, und eine Partitionsnummer ist optional.
Rebalance — Die Ausgabepartitionen der Abfrageergebnisse werden neu verteilt, sodass jede Partition eine angemessene Größe hat. REBALANCEHinweisparameter sind eine anfängliche Partitionsnummer, Spaltennamen oder beides oder keines von beiden.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Beim Caching wird das Spaltenformat verwendet

Die Verwendung von Adaptive Query Execution