Amazon S3를 사용하여 Spark 성능 개선 - 아마존 EMR

기계 번역으로 제공되는 번역입니다. 제공된 번역과 원본 영어의 내용이 상충하는 경우에는 영어 버전이 우선합니다.

Amazon S3를 사용하여 Spark 성능 개선

Amazon은 Spark를 사용하여 Amazon S3에 저장된 데이터를 쿼리, 읽기 및 쓸 때 성능을 최적화하는 데 도움이 되는 기능을 EMR 제공합니다.

S3 Select는 처리를 Amazon S3로 “푸시 다운”하여 일부 애플리케이션의 CSV 및 JSON 파일에 대한 쿼리 성능을 개선할 수 있습니다.

EMRFSS3에 최적화된 커미터는 Spark, 및 Datasets를 사용하여 SQL Amazon S3에 Parquet 파일을 쓸 때 성능을 향상시키기 EMRFS 위해 의 멀티파트 업로드 기능을 사용하는 OutputCommitter클래스의 대안입니다. DataFrames