Menggunakan Scala untuk memprogram skrip AWS Glue ETL - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan Scala untuk memprogram skrip AWS Glue ETL

Anda dapat secara otomatis menghasilkan program ekstrak, transformasi, dan muat (ETL) Scala menggunakan AWS Glue konsol, dan memodifikasinya sesuai kebutuhan sebelum menetapkannya ke pekerjaan. Atau, Anda bisa tulis program Anda sendiri dari scratch. Untuk informasi lebih lanjut, lihatMenambahkan pekerjaan di AWS Glue. AWS Gluekemudian mengkompilasi program Scala Anda di server sebelum menjalankan pekerjaan terkait.

Untuk memastikan bahwa program Anda dikompilasi tanpa kesalahan dan berjalan seperti yang diharapkan, penting bagi Anda untuk memuatnya pada titik akhir pengembangan di REPL (Read-Eval-Print Loop) atau Notebook Jupyter dan mengujinya di sana sebelum menjalankannya dalam suatu pekerjaan. Karena proses kompilasi terjadi pada server, Anda tidak akan memiliki visibilitas yang baik pada masalah yang terjadi di sana.

Menguji program Scala ETL di notebook Jupyter pada titik akhir pengembangan

Untuk menguji program Scala pada titik akhir AWS Glue pengembangan, siapkan titik akhir pengembangan seperti yang dijelaskan dalam. Menambahkan titik akhir pengembangan

Selanjutnya, sambungkan ke Notebook Jupyter yang berjalan secara lokal di komputer Anda atau dari jarak jauh di server notebook Amazon EC2. Untuk menginstal versi lokal Notebook Jupyter, ikuti petunjuk di. Tutorial: Notebook Jupyter di JupyterLab

Satu-satunya perbedaan antara menjalankan kode Scala dan menjalankan PySpark kode pada Notebook adalah Anda harus memulai setiap paragraf di Notebook dengan yang berikut:

%spark

Hal ini mencegah server Notebook dari default ke PySpark ragam interpreter Spark.

Menguji program Scala ETL dalam Scala REPL

Anda dapat menguji program Scala pada titik akhir pengembangan menggunakan AWS Glue Scala REPL. Ikuti instruksi di Tutorial: Gunakan SageMaker notebook, kecuali pada akhir perintah SSH-to-REPL, ganti -t gluepyspark dengan -t glue-spark-shell. Ini memanggil AWS Glue Scala REPL.

Untuk menutup REPL setelah Anda selesai, ketik sys.exit.