Optimalkan pekerjaan Spark di Studio EMR - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Optimalkan pekerjaan Spark di Studio EMR

Saat menjalankan pekerjaan Spark menggunakan EMR Studio, ada beberapa langkah yang dapat Anda ambil untuk membantu memastikan bahwa Anda mengoptimalkan sumber daya EMR klaster Amazon.

Perpanjang sesi Livy Anda

Jika Anda menggunakan Apache Livy bersama dengan Spark di EMR cluster Amazon Anda, kami sarankan Anda meningkatkan batas waktu sesi Livy Anda dengan melakukan salah satu hal berikut:

  • Saat Anda membuat EMR klaster Amazon, atur klasifikasi konfigurasi ini di bidang Enter Configuration.

    [ { "Classification": "livy-conf", "Properties": { "livy.server.session.timeout": "8h" } } ]
  • Untuk EMR klaster yang sudah berjalan, sambungkan ke klaster Anda menggunakan ssh dan atur klasifikasi livy-conf konfigurasi. /etc/livy/conf/livy.conf

    [ { "Classification": "livy-conf", "Properties": { "livy.server.session.timeout": "8h" } } ]

    Anda mungkin perlu me-restart Livy setelah mengubah konfigurasi.

  • Jika Anda tidak ingin sesi Livy Anda habis sama sekali, atur properti livy.server.session.timeout-check ke false dalam/etc/livy/conf/livy.conf.

Jalankan Spark dalam mode cluster

Dalam mode cluster, driver Spark berjalan pada node inti bukan pada node utama, meningkatkan pemanfaatan sumber daya pada node utama.

Untuk menjalankan aplikasi Spark Anda dalam mode cluster alih-alih mode klien default, pilih mode Cluster saat Anda mengatur mode Deploy saat mengonfigurasi langkah Spark Anda di cluster Amazon baru Anda. EMR Untuk informasi lebih lanjut, lihat Ikhtisar mode dalam dokumentasi Apache Spark.

Meningkatkan memori driver Spark

Untuk meningkatkan memori driver Spark, konfigurasikan sesi Spark Anda menggunakan perintah %%configure ajaib di EMR notebook Anda, seperti pada contoh berikut.

%%configure -f {"driverMemory": "6000M"}