기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.
쿼리 성능 향상을 위한 열 기반 형식 사용
Spark는 , Apache Parquet Optimized Row Columnar (ORC)및 CSV와 같은 다양한 입력 파일 형식을 사용할 수 있습니다. 그러나는 내에서 가장 잘 Parquet 작동합니다Spark SQL. 더 빠른 런타임, 더 높은 스캔 처리량, 감소된 디스크 I/O 및 더 낮은 운영 비용을 제공합니다.는 최소-최대 통계와 같은 푸시다운 필터를 통해 Parquet 파일 통계 데이터를 사용하여 쓸모 없는 데이터를 자동으로 필터링할 Spark 수 있습니다. 반면 Sparkparquet 벡터화된 리더는 배치별로 Parquet 파일을 읽을 수 있습니다. Spark SQL를 사용하여 데이터를 처리할 때는 가능하면 Parquet 파일 형식을 사용하는 것이 좋습니다.