Spark3.0.0 でのパーティショニングヒントの使用

Spark パーティショニングヒントは、パフォーマンスを調整し、出力ファイルの数を減らすのに役立ちます。は、COALESCE、、 REPARTITIONなどのパーティショニングヒントSpark SQLをサポートしていますREPARTITION_BY_RANGE。これらのヒントは、、、 repartitionなどのデータセット APIs coalesceに似ていますrepartitionByRange。以下のヒントは、で出力ファイルの数を制御するのに役立ちます。これによりSpark SQL、パフォーマンスを調整できます。

Coalesce - パーティションの数を指定されたパーティションの数に減らします。パーティション番号は、COALESCEヒントの唯一のパラメータです。
再パーティション - 指定されたパーティション式を使用して、指定された数のパーティションに再パーティションします。REPARTITION ヒントパラメータは、パーティション番号、列名、またはその両方です。
範囲による再パーティション - 指定されたパーティション式を使用して、指定された数のパーティションに再パーティションします。列名はREPARTITION_BY_RANGEヒントの必須パラメータであり、パーティション番号はオプションです。
再調整 - すべてのパーティションが適切なサイズになるように、クエリ結果の出力パーティションを再調整します。 REBALANCEヒントパラメータは、最初のパーティション番号、列名、またはその両方です。

ブラウザで JavaScript が無効になっているか、使用できません。

AWS ドキュメントを使用するには、JavaScript を有効にする必要があります。手順については、使用するブラウザのヘルプページを参照してください。

ドキュメントの表記規則

キャッシュ時の列形式の使用

Adaptive Query Execution を使用する