Menjalankan skrip Spark SQL melaluiStartJobRunAPI

Amazon EMR pada rilis EKS 6.7.0 dan yang lebih tinggi menyertakan driver pekerjaan Spark SQL sehingga Anda dapat menjalankan skrip Spark SQL melaluiStartJobRunAPI. Anda dapat menyediakan file entry-point SQL untuk langsung menjalankan kueri Spark SQL di Amazon EMR di EKS denganStartJobRunAPI, tanpa modifikasi pada skrip SQL Spark yang ada. Tabel berikut mencantumkan parameter Spark yang didukung untuk pekerjaan Spark SQL melaluiStartJobRunAPI.

Anda dapat memilih dari parameter Spark berikut untuk dikirim ke pekerjaan Spark SQL. Gunakan parameter ini untuk mengganti properti Spark default.

Opsi	Deskripsi
--nama NAMA	Nama Aplikasi
-guci	Daftar dipisahkan koma guci untuk disertakan dengan driver dan mengeksekusi classpath.
--paket	Daftar dipisahkan koma koordinat maven guci untuk memasukkan pada driver dan classpaths pelaksana.
--exclude-paket	Daftar grup yang dipisahkan koma: artifactId, untuk dikecualikan saat menyelesaikan dependensi yang disediakan dalam —packages untuk menghindari konflik ketergantungan.
--repositori	Daftar dipisahkan koma dari repositori jarak jauh tambahan untuk mencari koordinat maven yang diberikan dengan —packages.
-file FILE	Daftar file yang dipisahkan koma untuk ditempatkan di direktori kerja masing-masing pelaksana.
--conf PROP = NILAI	Properti konfigurasi percikan.
--properti-berkas BERKAS	Path ke file dari mana untuk memuat properti tambahan.
-driver-memori MEM	Memori untuk pengemudi. Default 1024MB.
--driver-java-options	Opsi Java tambahan untuk diteruskan ke pengemudi.
--driver-library-path	Ekstra entri jalur perpustakaan untuk diteruskan ke pengemudi.
--driver-class-path	Entri classpath ekstra untuk diteruskan ke pengemudi.
--executor-memori MEM	Memori per pelaksana. Default 1GB.
-driver-core NUM	Jumlah core yang digunakan oleh pengemudi.
--total-executor-coresNUM	Total core untuk semua pelaksana.
--executor-core NUM	Jumlah core yang digunakan oleh masing-masing pelaksana.
-num-pelaksana NUM	Jumlah pelaksana yang akan diluncurkan.
-hivevar <key=nilai>	Substitusi variabel untuk diterapkan pada perintah Hive, misalnya,`-hivevar A=B`
-hiveconf <properti = nilai>	Nilai yang digunakan untuk properti yang diberikan.

Untuk pekerjaan Spark SQL, buatstart-job-run-request.json mengajukan dan menentukan parameter yang diperlukan untuk menjalankan pekerjaan Anda, seperti dalam contoh berikut:


{
  "name": "myjob", 
  "virtualClusterId": "123456",  
  "executionRoleArn": "iam_role_name_for_job_execution", 
  "releaseLabel": "emr-6.7.0-latest", 
  "jobDriver": {
    "sparkSqlJobDriver": {
      "entryPoint": "entryPoint_location",
       "sparkSqlParameters": "--conf spark.executor.instances=2 --conf spark.executor.memory=2G --conf spark.executor.cores=2 --conf spark.driver.cores=1"
    }
  }, 
  "configurationOverrides": {
    "applicationConfiguration": [
      {
        "classification": "spark-defaults", 
        "properties": {
          "spark.driver.memory":"2G"
         }
      }
    ], 
    "monitoringConfiguration": {
      "persistentAppUI": "ENABLED", 
      "cloudWatchMonitoringConfiguration": {
        "logGroupName": "my_log_group", 
        "logStreamNamePrefix": "log_stream_prefix"
      }, 
      "s3MonitoringConfiguration": {
        "logUri": "s3://my_s3_log_location"
      }
    }
  }
}

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Kelola dengan CLI

Status tugas berjalan