在 Spark3.0.0 中使用分割提示 - AWS 方案指引

本文為英文版的機器翻譯版本,如內容有任何歧義或不一致之處,概以英文版為準。

在 Spark3.0.0 中使用分割提示

Spark 分割提示可協助您調校效能並減少輸出檔案的數量。 Spark SQL支援分割提示,例如 COALESCEREPARTITIONREPARTITION_BY_RANGE。這些提示類似於資料集 APIs,例如 coalescerepartitionrepartitionByRange。下列提示可協助您控制 中的輸出檔案數量Spark SQL,這可協助您調校效能:

  • Coalesce - 將分割區數目減少為指定的分割區數目。分割區編號是COALESCE提示的唯一參數。

  • 重新分割 - 使用指定的分割表達式重新分割至指定數量的分割區。REPARTITION 提示參數是分割區編號、資料欄名稱或兩者。

  • 依範圍重新分割 - 使用指定的分割表達式重新分割至指定數量的分割區。資料欄名稱是REPARTITION_BY_RANGE提示的必要參數,分割區編號是選用的。

  • 重新平衡 - 重新平衡查詢結果輸出分割區,讓每個分割區都是合理的大小。 REBALANCE 提示參數是初始分割區編號、資料欄名稱,或兩者兼具。