Spark3.0.0 でのパーティショニングヒントの使用 - AWS 規範ガイダンス

翻訳は機械翻訳により提供されています。提供された翻訳内容と英語版の間で齟齬、不一致または矛盾がある場合、英語版が優先します。

Spark3.0.0 でのパーティショニングヒントの使用

Spark パーティショニングヒントは、パフォーマンスを調整し、出力ファイルの数を減らすのに役立ちます。 は、COALESCE、、 REPARTITIONなどのパーティショニングヒントSpark SQLをサポートしていますREPARTITION_BY_RANGE。これらのヒントは、、、 repartitionなどのデータセット APIs coalesceに似ていますrepartitionByRange。以下のヒントは、 で出力ファイルの数を制御するのに役立ちます。これによりSpark SQL、パフォーマンスを調整できます。

  • Coalesce - パーティションの数を指定されたパーティションの数に減らします。パーティション番号は、COALESCEヒントの唯一のパラメータです。

  • 再パーティション - 指定されたパーティション式を使用して、指定された数のパーティションに再パーティションします。REPARTITION ヒントパラメータは、パーティション番号、列名、またはその両方です。

  • 範囲による再パーティション - 指定されたパーティション式を使用して、指定された数のパーティションに再パーティションします。列名はREPARTITION_BY_RANGEヒントの必須パラメータであり、パーティション番号はオプションです。

  • 再調整 - すべてのパーティションが適切なサイズになるように、クエリ結果の出力パーティションを再調整します。 REBALANCEヒントパラメータは、最初のパーティション番号、列名、またはその両方です。