Parameter percikan Properti percikan Praktik terbaik konfigurasi sumber daya Contoh percikan

Menggunakan konfigurasi Spark saat Anda menjalankan pekerjaan EMR Tanpa Server

Anda dapat menjalankan pekerjaan Spark pada aplikasi dengan type parameter yang disetel keSPARK. Pekerjaan harus kompatibel dengan versi Spark yang kompatibel dengan versi rilis Amazon EMR. Misalnya, ketika Anda menjalankan pekerjaan dengan Amazon EMR rilis 6.6.0, pekerjaan Anda harus kompatibel dengan Apache Spark 3.2.0. Untuk informasi tentang versi aplikasi untuk setiap rilis, lihatAmazon EMR Versi rilis tanpa server.

Parameter pekerjaan percikan

Saat Anda menggunakan StartJobRunAPI untuk menjalankan pekerjaan Spark, Anda dapat menentukan parameter berikut.

Parameter yang diperlukan

Peran runtime pekerjaan percikan
Parameter pengemudi pekerjaan percikan
Parameter penggantian konfigurasi percikan
Spark optimasi alokasi sumber daya dinamis

Peran runtime pekerjaan percikan

Gunakan executionRoleArnuntuk menentukan ARN untuk peran IAM yang digunakan aplikasi Anda untuk menjalankan pekerjaan Spark. Peran ini harus berisi izin berikut:

Baca dari bucket S3 atau sumber data lain di mana data Anda berada
Baca dari bucket atau awalan S3 tempat PySpark skrip atau file JAR Anda berada
Menulis ke ember S3 di mana Anda ingin menulis hasil akhir Anda
Menulis log ke bucket S3 atau awalan yang menentukan S3MonitoringConfiguration
Akses ke kunci KMS jika Anda menggunakan kunci KMS untuk mengenkripsi data di bucket S3 Anda
Akses ke Katalog Data AWS Glue jika Anda menggunakan SparkSQL

Jika pekerjaan Spark Anda membaca atau menulis data ke atau dari sumber data lain, tentukan izin yang sesuai dalam peran IAM ini. Jika Anda tidak memberikan izin ini ke peran IAM, pekerjaan mungkin gagal. Untuk informasi selengkapnya, lihat Peran runtime Job untuk Amazon EMR Tanpa Server dan Menyimpan log.

Parameter pengemudi pekerjaan percikan

Gunakan jobDriveruntuk memberikan masukan pada pekerjaan. Parameter driver pekerjaan hanya menerima satu nilai untuk jenis pekerjaan yang ingin Anda jalankan. Untuk pekerjaan Spark, nilai parameternya adalahsparkSubmit. Anda dapat menggunakan jenis pekerjaan ini untuk menjalankan Scala, Java PySpark, dan pekerjaan lain yang didukung melalui pengiriman Spark. Pekerjaan percikan memiliki parameter berikut:

sparkSubmitParameters— Ini adalah parameter Spark tambahan yang ingin Anda kirim ke pekerjaan. Gunakan parameter ini untuk mengganti properti Spark default seperti memori driver atau jumlah pelaksana, seperti yang didefinisikan dalam argumen atau. --conf --class
entryPointArguments— Ini adalah array argumen yang ingin Anda sampaikan ke JAR utama Anda atau file Python. Anda harus menangani membaca parameter ini menggunakan kode entrypoint Anda. Pisahkan setiap argumen dalam array dengan koma.
entryPoint— Ini adalah referensi di Amazon S3 ke JAR utama atau file Python yang ingin Anda jalankan. Jika Anda menjalankan Scala atau Java JAR, tentukan kelas entri utama dalam SparkSubmitParameters menggunakan --class argumen.

Untuk informasi tambahan, lihat Peluncuran Aplikasi dengan spark-submit.

Parameter penggantian konfigurasi percikan

Gunakan configurationOverridesuntuk mengganti properti konfigurasi tingkat pemantauan dan tingkat aplikasi. Parameter ini menerima objek JSON dengan dua bidang berikut:

monitoringConfiguration- Gunakan bidang ini untuk menentukan URL Amazon S3 (s3MonitoringConfiguration) di mana Anda ingin pekerjaan EMR Tanpa Server untuk menyimpan log pekerjaan Spark Anda. Pastikan Anda telah membuat bucket ini dengan yang sama Akun AWS yang meng-host aplikasi Anda, dan di tempat yang sama Wilayah AWS di mana pekerjaan Anda berjalan.
applicationConfiguration— Untuk mengganti konfigurasi default untuk aplikasi, Anda dapat menyediakan objek konfigurasi di bidang ini. Anda dapat menggunakan sintaks singkatan untuk menyediakan konfigurasi, atau Anda dapat mereferensikan objek konfigurasi dalam file JSON. Objek konfigurasi terdiri dari klasifikasi, properti, dan konfigurasi bersarang opsional. Properti terdiri dari pengaturan yang ingin Anda timpa dalam file itu. Anda dapat menentukan beberapa klasifikasi untuk beberapa aplikasi dalam objek JSON tunggal.

catatan
Klasifikasi konfigurasi yang tersedia bervariasi menurut rilis EMR Tanpa Server tertentu. Misalnya, klasifikasi untuk Log4j kustom spark-driver-log4j2 dan hanya spark-executor-log4j2 tersedia dengan rilis 6.8.0 dan yang lebih tinggi.

Jika Anda menggunakan konfigurasi yang sama dalam penggantian aplikasi dan dalam parameter pengiriman Spark, parameter pengiriman Spark akan diprioritaskan. Konfigurasi peringkat dalam prioritas sebagai berikut, dari tertinggi ke terendah:

Konfigurasi yang disediakan EMR Tanpa Server saat dibuat. SparkSession
Konfigurasi yang Anda berikan sebagai bagian dari sparkSubmitParameters --conf argumen.
Konfigurasi yang Anda berikan sebagai bagian dari penggantian aplikasi Anda ketika Anda memulai pekerjaan.
Konfigurasi yang Anda berikan sebagai bagian dari runtimeConfiguration saat Anda membuat aplikasi.
Konfigurasi yang dioptimalkan yang digunakan Amazon EMR untuk rilis.
Konfigurasi sumber terbuka default untuk aplikasi.

Untuk informasi selengkapnya tentang mendeklarasikan konfigurasi di tingkat aplikasi, dan mengganti konfigurasi selama menjalankan pekerjaan, lihat. Konfigurasi aplikasi default untuk EMR Serverless

Spark optimasi alokasi sumber daya dinamis

Gunakan dynamicAllocationOptimization untuk mengoptimalkan penggunaan sumber daya di EMR Tanpa Server. Menyetel properti ini ke true dalam klasifikasi konfigurasi Spark Anda menunjukkan kepada EMR Tanpa Server untuk mengoptimalkan alokasi sumber daya pelaksana untuk menyelaraskan tingkat permintaan Spark dan membatalkan pelaksana dengan tingkat di mana EMR Serverless membuat dan melepaskan pekerja. Dengan demikian, EMR Serverless lebih optimal menggunakan kembali pekerja di seluruh tahap, menghasilkan biaya yang lebih rendah saat menjalankan pekerjaan dengan beberapa tahap sambil mempertahankan kinerja yang sama.

Properti ini tersedia di semua versi rilis Amazon EMR.

Berikut ini adalah klasifikasi konfigurasi sampel dengandynamicAllocationOptimization.


[
  {
    "Classification": "spark",
    "Properties": {
      "dynamicAllocationOptimization": "true"
    }
  }
]

Pertimbangkan hal berikut jika Anda menggunakan optimasi alokasi dinamis:

Pengoptimalan ini tersedia untuk pekerjaan Spark yang Anda aktifkan alokasi sumber daya dinamis.
Untuk mencapai efisiensi biaya terbaik, kami sarankan untuk mengonfigurasi batas skala atas pada pekerja menggunakan pengaturan tingkat pekerjaan spark.dynamicAllocation.maxExecutors atau pengaturan kapasitas maksimum tingkat aplikasi berdasarkan beban kerja Anda.
Anda mungkin tidak melihat peningkatan biaya dalam pekerjaan yang lebih sederhana. Misalnya, jika pekerjaan Anda berjalan pada kumpulan data kecil atau selesai berjalan dalam satu tahap, Spark mungkin tidak memerlukan jumlah pelaksana yang lebih besar atau beberapa peristiwa penskalaan.
Pekerjaan dengan urutan tahap besar, tahapan yang lebih kecil, dan kemudian tahap besar lagi mungkin mengalami regresi dalam runtime pekerjaan. Karena EMR Serverless menggunakan sumber daya secara lebih efisien, ini dapat menyebabkan lebih sedikit pekerja yang tersedia untuk tahap yang lebih besar, yang mengarah ke runtime yang lebih lama.

Properti pekerjaan percikan

Tabel berikut mencantumkan properti Spark opsional dan nilai defaultnya yang dapat Anda ganti saat mengirimkan pekerjaan Spark.

Kunci	Deskripsi	Nilai default
`spark.archives`	Daftar arsip yang dipisahkan koma yang diekstrak Spark ke dalam direktori kerja masing-masing pelaksana. Jenis file yang didukung termasuk`.jar`,`.tar.gz`, `.tgz` dan`.zip`. Untuk menentukan nama direktori yang akan diekstrak, tambahkan `#` setelah nama file yang ingin Anda ekstrak. Misalnya, `file.zip#directory`.	`NULL`
`spark.authenticate`	Opsi yang mengaktifkan otentikasi koneksi internal Spark.	`TRUE`
`spark.driver.cores`	Jumlah core yang digunakan driver.	4
`spark.driver.extraJavaOptions`	Opsi Java ekstra untuk driver Spark.	`NULL`
`spark.driver.memory`	Jumlah memori yang digunakan pengemudi.	14G
`spark.dynamicAllocation.enabled`	Opsi yang mengaktifkan alokasi sumber daya dinamis. Opsi ini menaikkan atau menurunkan jumlah pelaksana yang terdaftar dengan aplikasi, berdasarkan beban kerja.	`TRUE`
`spark.dynamicAllocation.executorIdleTimeout`	Lamanya waktu seorang eksekutor dapat tetap menganggur sebelum Spark menghapusnya. Ini hanya berlaku jika Anda mengaktifkan alokasi dinamis.	60-an
`spark.dynamicAllocation.initialExecutors`	Jumlah awal pelaksana untuk dijalankan jika Anda mengaktifkan alokasi dinamis.	`3`
`spark.dynamicAllocation.maxExecutors`	Batas atas untuk jumlah pelaksana jika Anda mengaktifkan alokasi dinamis.	Untuk 6.10.0 dan lebih tinggi, `infinity` Untuk 6.9.0 dan lebih rendah, `100`
`spark.dynamicAllocation.minExecutors`	Batas bawah untuk jumlah pelaksana jika Anda mengaktifkan alokasi dinamis.	`0`
`spark.emr-serverless.allocation.batch.size`	Jumlah kontainer untuk meminta dalam setiap siklus alokasi pelaksana. Ada kesenjangan satu detik antara setiap siklus alokasi.	20
`spark.emr-serverless.driver.disk`	Disk driver Spark.	20G
`spark.emr-serverless.driverEnv.[KEY]`	Opsi yang menambahkan variabel lingkungan ke driver Spark.	`NULL`
`spark.emr-serverless.executor.disk`	Disk eksekutor Spark.	20G
`spark.emr-serverless.memoryOverheadFactor`	Mengatur overhead memori untuk ditambahkan ke driver dan memori kontainer pelaksana.	0.1
`spark.emr-serverless.driver.disk.type`	Jenis disk yang terpasang pada driver Spark.	Standar
`spark.emr-serverless.executor.disk.type`	Jenis disk yang melekat pada pelaksana Spark.	Standar
`spark.executor.cores`	Jumlah core yang digunakan setiap eksekutor.	4
`spark.executor.extraJavaOptions`	Opsi Java ekstra untuk eksekutor Spark.	`NULL`
`spark.executor.instances`	Jumlah kontainer pelaksana Spark untuk dialokasikan.	3
`spark.executor.memory`	Jumlah memori yang digunakan setiap eksekutor.	14G
`spark.executorEnv.[KEY]`	Opsi yang menambahkan variabel lingkungan ke pelaksana Spark.	`NULL`
`spark.files`	Daftar file yang dipisahkan koma untuk masuk ke direktori kerja masing-masing pelaksana. Anda dapat mengakses jalur file dari file-file ini di pelaksana dengan`SparkFiles.get(fileName)`.	`NULL`
`spark.hadoop.hive.metastore.client.factory.class`	Kelas implementasi metastore Hive.	`NULL`
`spark.jars`	Guci tambahan untuk ditambahkan ke classpath runtime driver dan executor.	`NULL`
`spark.network.crypto.enabled`	Opsi yang mengaktifkan enkripsi RPC berbasis AES. Ini termasuk protokol otentikasi yang ditambahkan di Spark 2.2.0.	`FALSE`
`spark.sql.warehouse.dir`	Lokasi default untuk database dan tabel terkelola.	Nilai dari `$PWD/spark-warehouse`
`spark.submit.pyFiles`	Daftar`.zip`,`.egg`, atau `.py` file yang dipisahkan koma untuk ditempatkan di aplikasi untuk `PYTHONPATH` Python.	`NULL`

Tabel berikut mencantumkan parameter pengiriman Spark default.

Kunci	Deskripsi	Nilai default
`archives`	Daftar arsip yang dipisahkan koma yang diekstrak Spark ke dalam direktori kerja masing-masing pelaksana.	`NULL`
`class`	Kelas utama aplikasi (untuk aplikasi Java dan Scala).	`NULL`
`conf`	Properti konfigurasi Spark arbitrer.	`NULL`
`driver-cores`	Jumlah core yang digunakan driver.	4
`driver-memory`	Jumlah memori yang digunakan pengemudi.	14G
`executor-cores`	Jumlah core yang digunakan setiap eksekutor.	4
`executor-memory`	Jumlah memori yang digunakan pelaksana.	14G
`files`	Daftar file yang dipisahkan koma untuk ditempatkan di direktori kerja masing-masing pelaksana. Anda dapat mengakses jalur file dari file-file ini di pelaksana dengan`SparkFiles.get(fileName)`.	`NULL`
`jars`	Daftar stoples yang dipisahkan koma untuk disertakan pada classpath driver dan eksekutor.	`NULL`
`num-executors`	Jumlah pelaksana yang akan diluncurkan.	3
`py-files`	Daftar`.zip`,`.egg`, atau `.py` file yang dipisahkan koma untuk ditempatkan di aplikasi untuk `PYTHONPATH` Python.	`NULL`
`verbose`	Opsi yang mengaktifkan output debug tambahan.	`NULL`

Praktik terbaik konfigurasi sumber daya

Mengkonfigurasi sumber daya driver dan pelaksana melalui API StartJobRun

catatan

Spark driver dan core executor dan properti memori, jika ditentukan, harus langsung ditentukan dalam permintaan StartJobRun API.

Mengkonfigurasi sumber daya Anda dengan cara ini memastikan bahwa EMR Serverless dapat mengalokasikan sumber daya yang benar sebelum menjalankan pekerjaan. Ini berbeda dengan pengaturan yang disediakan dalam skrip pengguna, seperti di file.py atau .jar, yang dievaluasi terlambat, karena pekerja driver dan eksekutor terkadang disediakan sebelumnya sebelum eksekusi skrip dimulai. Ada dua cara yang didukung untuk mengonfigurasi sumber daya ini selama pengiriman pekerjaan:

Opsi 1: Gunakan sparkSubmitParameters


"jobDriver": {
 "sparkSubmit": {
    "entryPoint": "s3://your-script-path.py",
    "sparkSubmitParameters": "—conf spark.driver.memory=4g \
    —conf spark.driver.cores=2 \
    —conf spark.executor.memory=8g \
    —conf spark.executor.cores=4"
  }
 }

Opsi 2: Gunakan ConfigurationOverrides untuk klasifikasi spark-defaults


"configurationOverrides": {
 "applicationConfiguration": [
 {
 "classification": "spark-defaults",
 "properties": {
     "spark.driver.memory": "4g",
     "spark.driver.cores": "2",
     "spark.executor.memory": "8g",
     "spark.executor.cores": "4"
      }
    }
  ]
 }

Contoh percikan

Contoh berikut menunjukkan cara menggunakan StartJobRun API untuk menjalankan skrip Python. Untuk end-to-end tutorial yang menggunakan contoh ini, lihatMemulai dengan Amazon EMR Tanpa Server. Anda dapat menemukan contoh tambahan tentang cara menjalankan PySpark pekerjaan dan menambahkan dependensi Python di repositori EMR Serverless Sampel. GitHub


aws emr-serverless start-job-run \
    --application-id application-id \
    --execution-role-arn job-role-arn \
    --job-driver '{
        "sparkSubmit": {
            "entryPoint": "s3://us-east-1.elasticmapreduce/emr-containers/samples/wordcount/scripts/wordcount.py",
            "entryPointArguments": ["s3://amzn-s3-demo-destination-bucket/wordcount_output"],
            "sparkSubmitParameters": "--conf spark.executor.cores=1 --conf spark.executor.memory=4g --conf spark.driver.cores=1 --conf spark.driver.memory=4g --conf spark.executor.instances=1"
        }
    }'

Contoh berikut menunjukkan cara menggunakan StartJobRun API untuk menjalankan Spark JAR.


aws emr-serverless start-job-run \
    --application-id application-id \
    --execution-role-arn job-role-arn \
    --job-driver '{
        "sparkSubmit": {
            "entryPoint": "/usr/lib/spark/examples/jars/spark-examples.jar",
            "entryPointArguments": ["1"],
            "sparkSubmitParameters": "--class org.apache.spark.examples.SparkPi --conf spark.executor.cores=4 --conf spark.executor.memory=20g --conf spark.driver.cores=4 --conf spark.driver.memory=8g --conf spark.executor.instances=1"
        }
    }'

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Manajemen log

Menggunakan konfigurasi Hive saat Anda menjalankan pekerjaan EMR Tanpa Server