Verwenden von Partitionierungshinweisen in Spark 3.0.0 - AWS Präskriptive Leitlinien

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verwenden von Partitionierungshinweisen in Spark 3.0.0

Spark Partitionierungshinweise können Ihnen helfen, die Leistung zu optimieren und die Anzahl der Ausgabedateien zu reduzieren. Spark SQL unterstützt Partitionierungshinweise wie COALESCEREPARTITION, und. REPARTITION_BY_RANGE Diese Hinweise ähneln denen des Datasets APIs, z. B. coalescerepartition, undrepartitionByRange. Die folgenden Hinweise helfen Ihnen dabei, die Anzahl der Ausgabedateien in zu kontrollieren Spark SQL, das Ihnen hilft, die Leistung zu optimieren:

  • Zusammenführen — Reduziert die Anzahl der Partitionen auf die angegebene Anzahl von Partitionen. Eine Partitionsnummer ist der einzige Parameter des COALESCE Hinweises.

  • Repartition — Neupartitionierung auf die angegebene Anzahl von Partitionen mithilfe der angegebenen Partitionierungsausdrücke. Die REPARTITION Hinweisparameter sind eine Partitionsnummer, Spaltennamen oder beides.

  • Verteilung nach Bereichen — Neupartitionierung auf die angegebene Anzahl von Partitionen mithilfe der angegebenen Partitionierungsausdrücke. Spaltennamen sind ein erforderlicher Parameter für den REPARTITION_BY_RANGE Hinweis, und eine Partitionsnummer ist optional.

  • Rebalance — Die Ausgabepartitionen der Abfrageergebnisse werden neu verteilt, sodass jede Partition eine angemessene Größe hat. REBALANCEHinweisparameter sind eine anfängliche Partitionsnummer, Spaltennamen oder beides oder keines von beiden.