Tingkatkan kinerja Spark dengan Amazon S3 - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Tingkatkan kinerja Spark dengan Amazon S3

Amazon EMR menawarkan fitur untuk membantu mengoptimalkan kinerja saat menggunakan Spark untuk query, membaca dan menulis data yang disimpan di Amazon S3.

S3 Select dapat meningkatkan kinerja query untuk file CSV dan JSON di beberapa aplikasi dengan “menekan” pengolahan ke Amazon S3.

Komitter yang dioptimalkan EMRFS S3 adalah alternatif untuk OutputCommitterkelas, yang menggunakan fitur unggahan multipart EMRFS untuk meningkatkan kinerja saat menulis file Parket ke Amazon S3 menggunakan Spark SQL,, dan Datasets. DataFrames