Spark3.0.0에서 파티셔닝 힌트 사용 - AWS 권장 가이드

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Spark3.0.0에서 파티셔닝 힌트 사용

Spark 파티셔닝 힌트는 성능을 조정하고 출력 파일 수를 줄이는 데 도움이 될 수 있습니다.는 , COALESCEREPARTITION와 같은 파티셔닝 힌트를 Spark SQL 지원합니다REPARTITION_BY_RANGE. 이러한 힌트는 , 및와 같은 데이터 세트 APIscoalescerepartition와 유사합니다repartitionByRange. 다음 힌트는 성능을 조정하는 데 도움이 Spark SQL되는의 출력 파일 수를 제어하는 데 도움이 됩니다.

  • 병합 - 파티션 수를 지정된 파티션 수로 줄입니다. 파티션 번호는 COALESCE힌트의 유일한 파라미터입니다.

  • 재분할 - 지정된 파티셔닝 표현식을 사용하여 지정된 수의 파티션으로 재분할합니다. REPARTITION 힌트 파라미터는 파티션 번호, 열 이름 또는 둘 다입니다.

  • 범위별 재분할 - 지정된 파티셔닝 표현식을 사용하여 지정된 수의 파티션으로 재분할합니다. 열 이름은 REPARTITION_BY_RANGE힌트에 필요한 파라미터이며 파티션 번호는 선택 사항입니다.

  • 리밸런싱 - 쿼리 결과 출력 파티션을 리밸런싱하여 모든 파티션의 크기가 적절한지 확인합니다. REBALANCE힌트 파라미터는 초기 파티션 번호, 열 이름 또는 둘 다이거나 둘 다이거나 둘 다 아닙니다.