本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。
在 Spark3.0.0 中使用分割提示
Spark 分割提示COALESCE
、 REPARTITION
和 REPARTITION_BY_RANGE
。這些提示類似於資料集 APIs,例如 coalesce
、 repartition
和 repartitionByRange
。下列提示可協助您控制 中的輸出檔案數量Spark SQL,這可協助您調校效能:
-
Coalesce - 將分割區數目減少為指定的分割區數目。分割區編號是
COALESCE
提示的唯一參數。 -
重新分割 - 使用指定的分割表達式重新分割至指定數量的分割區。
REPARTITION
提示參數是分割區編號、資料欄名稱或兩者。 -
依範圍重新分割 - 使用指定的分割表達式重新分割至指定數量的分割區。資料欄名稱是
REPARTITION_BY_RANGE
提示的必要參數,分割區編號是選用的。 -
重新平衡 - 重新平衡查詢結果輸出分割區,讓每個分割區都是合理的大小。
REBALANCE
提示參數是初始分割區編號、資料欄名稱,或兩者兼具。