Meningkatkan kinerja Spark dengan Amazon S3 - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Meningkatkan kinerja Spark dengan Amazon S3

Amazon EMR menawarkan fitur untuk membantu mengoptimalkan kinerja saat menggunakan Spark untuk query, membaca dan menulis data yang disimpan di Amazon S3.

S3 Select dapat meningkatkan kinerja query untuk file CSV dan JSON di beberapa aplikasi dengan “menekan” pengolahan ke Amazon S3.

Committer EMRFS S3 adalah alternatif untuk OutputCommitterkelas, yang menggunakan fitur upload multipart dari EMRFS untuk meningkatkan kinerja ketika menulis file Parket ke Amazon S3 menggunakan Spark SQL DataFrames,, dan Dataset.