Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Optimalkan pekerjaan Spark di Studio EMR
Saat menjalankan pekerjaan Spark menggunakan EMR Studio, ada beberapa langkah yang dapat Anda ambil untuk membantu memastikan bahwa Anda mengoptimalkan sumber daya EMR klaster Amazon.
Perpanjang sesi Livy Anda
Jika Anda menggunakan Apache Livy bersama dengan Spark di EMR cluster Amazon Anda, kami sarankan Anda meningkatkan batas waktu sesi Livy Anda dengan melakukan salah satu hal berikut:
-
Saat Anda membuat EMR klaster Amazon, atur klasifikasi konfigurasi ini di bidang Enter Configuration.
[ { "Classification": "livy-conf", "Properties": { "livy.server.session.timeout": "8h" } } ]
-
Untuk EMR klaster yang sudah berjalan, sambungkan ke klaster Anda menggunakan
ssh
dan atur klasifikasilivy-conf
konfigurasi./etc/livy/conf/livy.conf
[ { "Classification": "livy-conf", "Properties": { "livy.server.session.timeout": "8h" } } ]
Anda mungkin perlu me-restart Livy setelah mengubah konfigurasi.
-
Jika Anda tidak ingin sesi Livy Anda habis sama sekali, atur properti
livy.server.session.timeout-check
kefalse
dalam/etc/livy/conf/livy.conf
.
Jalankan Spark dalam mode cluster
Dalam mode cluster, driver Spark berjalan pada node inti bukan pada node utama, meningkatkan pemanfaatan sumber daya pada node utama.
Untuk menjalankan aplikasi Spark Anda dalam mode cluster alih-alih mode klien default, pilih mode Cluster saat Anda mengatur mode Deploy saat mengonfigurasi langkah Spark Anda di cluster Amazon baru Anda. EMR Untuk informasi lebih lanjut, lihat Ikhtisar mode
Meningkatkan memori driver Spark
Untuk meningkatkan memori driver Spark, konfigurasikan sesi Spark Anda menggunakan perintah %%configure
ajaib di EMR notebook Anda, seperti pada contoh berikut.
%%configure -f {"driverMemory": "6000M"}