Meluncurkan aplikasi Spark menggunakan integrasi Amazon Redshift untuk Apache Spark - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Meluncurkan aplikasi Spark menggunakan integrasi Amazon Redshift untuk Apache Spark

Untuk Amazon EMR merilis 6.4 hingga 6.9, Anda harus menggunakan --packages opsi --jars or untuk menentukan mana dari file JAR berikut yang ingin Anda gunakan. --jarsOpsi menentukan dependensi yang disimpan secara lokal, dalam HDFS, atau menggunakan HTTP/S. Untuk melihat lokasi file lain yang didukung oleh --jars opsi, lihat Advanced Dependency Management dalam dokumentasi Spark. --packagesOpsi menentukan dependensi yang disimpan dalam repo Maven publik.

  • spark-redshift.jar

  • spark-avro.jar

  • RedshiftJDBC.jar

  • minimal-json.jar

Amazon EMR merilis 6.10.0 dan yang lebih tinggi tidak memerlukan ketergantungan, dan secara otomatis menginstal minimal-json.jar dependensi lain ke setiap cluster secara default. Contoh berikut menunjukkan cara meluncurkan aplikasi Spark dengan integrasi Amazon Redshift untuk Apache Spark.

Amazon EMR 6.10.0 +

Contoh berikut menunjukkan cara meluncurkan aplikasi Spark dengan spark-redshift konektor dengan Amazon EMR rilis 6.10 dan lebih tinggi.

spark-submit my_script.py
Amazon EMR 6.4.0 - 6.9.x

Untuk meluncurkan aplikasi Spark dengan spark-redshift konektor di Amazon EMR rilis 6.4 hingga 6.9, Anda harus menggunakan opsi --packages or, seperti --jars yang ditunjukkan contoh berikut. Perhatikan bahwa jalur yang tercantum dengan --jars opsi adalah jalur default untuk file JAR.

spark-submit \ --jars /usr/share/aws/redshift/jdbc/RedshiftJDBC.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-redshift.jar,/usr/share/aws/redshift/spark-redshift/lib/spark-avro.jar,/usr/share/aws/redshift/spark-redshift/lib/minimal-json.jar \ my_script.py