Amazon S3 で Spark のパフォーマンスを向上させる - Amazon EMR

Amazon S3 で Spark のパフォーマンスを向上させる

Amazon EMR には、Spark を使用して Amazon S3 に保存されたデータのクエリ、読み取り、および書き込みを行うときのパフォーマンスを最適化するのに役立つ機能が用意されています。

S3 Select では、Amazon S3 に処理を「プッシュダウン」することで一部のアプリケーションの CSV および JSON ファイルのクエリパフォーマンスを向上させることができます。

EMRFS S3 向けに最適化されたコミッターは OutputCommitter クラスに代わるものであり、EMRFS のマルチパートアップロード機能を使用して、Spark SQL、DataFrames、および Datasets で Amazon S3 に Parquet ファイルを書き込むときのパフォーマンスを向上させます。