Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Anda dapat secara otomatis menghasilkan program ekstrak, transformasi, dan beban (ETL) Scala menggunakan AWS Glue konsol, dan memodifikasinya sesuai kebutuhan sebelum menetapkannya ke pekerjaan. Atau, Anda bisa tulis program Anda sendiri dari scratch. Untuk informasi selengkapnya, lihat Mengkonfigurasi properti pekerjaan untuk pekerjaan Spark di AWS Glue. AWS Glue kemudian mengkompilasi program Scala Anda di server sebelum menjalankan pekerjaan terkait.
Untuk memastikan bahwa program Anda dikompilasi tanpa kesalahan dan berjalan seperti yang diharapkan, penting bagi Anda untuk memuatnya pada titik akhir pengembangan di REPL (Read-Eval-Print Loop) atau Notebook Jupyter dan mengujinya di sana sebelum menjalankannya dalam suatu pekerjaan. Karena proses kompilasi terjadi pada server, Anda tidak akan memiliki visibilitas yang baik pada masalah yang terjadi di sana.
Menguji program Scala ETL di notebook Jupyter pada titik akhir pengembangan
Untuk menguji program Scala pada AWS Glue titik akhir pengembangan, mengatur titik akhir pengembangan seperti yang dijelaskan dalam. Menambahkan titik akhir pengembangan
Selanjutnya, sambungkan ke Notebook Jupyter yang berjalan secara lokal di komputer Anda atau dari jarak jauh di server notebook Amazon. EC2 Untuk menginstal versi lokal Notebook Jupyter, ikuti petunjuk di. Tutorial: Notebook Jupyter di JupyterLab
Satu-satunya perbedaan antara menjalankan kode Scala dan menjalankan PySpark kode pada Notebook adalah Anda harus memulai setiap paragraf di Notebook dengan yang berikut:
%spark
Hal ini mencegah server Notebook dari default ke PySpark ragam interpreter Spark.
Menguji program Scala ETL dalam Scala REPL
Anda dapat menguji program Scala pada titik akhir pengembangan menggunakan AWS GlueScala REPL. Ikuti instruksi diTutorial: Gunakan notebook SageMaker AI, kecuali di akhir SSH-to-REPL perintah, ganti -t gluepyspark
dengan-t glue-spark-shell
. Ini memanggil AWS Glue Scala REPL.
Untuk menutup REPL setelah Anda selesai, ketik sys.exit
.