Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Apache Spark adalah platform sumber terbuka untuk beban kerja komputasi terdistribusi yang dilakukan pada kumpulan data besar. AWS Gluememanfaatkan kemampuan Spark untuk memberikan pengalaman yang dioptimalkan untuk ETL. Anda dapat memigrasi program Spark AWS Glue untuk memanfaatkan fitur kami. AWS Gluememberikan peningkatan kinerja yang sama seperti yang Anda harapkan dari Apache Spark di Amazon EMR.
Jalankan kode Spark
Kode Native Spark dapat dijalankan di AWS Glue lingkungan di luar kotak. Skrip sering dikembangkan dengan mengubah sepotong kode secara iteratif, alur kerja yang cocok untuk Sesi Interaktif. Namun, kode yang ada lebih cocok untuk dijalankan dalam AWS Glue pekerjaan, yang memungkinkan Anda menjadwalkan dan secara konsisten mendapatkan log dan metrik untuk setiap skrip yang dijalankan. Anda dapat mengunggah dan mengedit skrip yang ada melalui konsol.
-
Dapatkan sumber ke skrip Anda. Untuk contoh ini, Anda akan menggunakan contoh skrip dari repositori Apache Spark. Contoh Binarizer
-
Di AWS Glue Console, perluas panel navigasi sisi kiri dan pilih ETL > Jobs
Di panel Buat pekerjaan, pilih Editor skrip Spark. Bagian Opsi akan muncul. Di bawah Opsi, pilih Unggah dan edit skrip yang ada.
Bagian unggahan file akan muncul. Di bawah Unggah file, klik Pilih file. Pemilih file sistem Anda akan muncul. Arahkan ke lokasi tempat Anda menyimpan
binarizer_example.py
, pilih dan konfirmasikan pilihan Anda.Tombol Create akan muncul di header untuk panel Create job. Klik itu.
-
Browser Anda akan menavigasi ke editor skrip. Pada header, klik tab Job details. Tetapkan Nama dan Peran IAM. Untuk panduan seputar peran AWS Glue IAM, konsultasikanMenyiapkan IAM izin untuk AWS Glue.
Opsional - atur jumlah pekerja yang diminta ke
2
dan Jumlah percobaan ulang ke.1
Opsi ini berharga saat menjalankan pekerjaan produksi, tetapi menolaknya akan merampingkan pengalaman Anda saat menguji fitur.Di bilah judul, klik Simpan, lalu Jalankan
-
Arahkan ke tab Runs. Anda akan melihat panel yang sesuai dengan pekerjaan Anda. Tunggu beberapa menit dan halaman akan disegarkan secara otomatis untuk menampilkan Berhasil di bawah status Jalankan.
-
Anda akan ingin memeriksa output Anda untuk mengonfirmasi bahwa skrip Spark berjalan sebagaimana dimaksud. Skrip contoh Apache Spark ini harus menulis string ke aliran output. Anda dapat menemukannya dengan menavigasi ke log Output di bawah log Cloudwatch di panel agar pekerjaan berhasil dijalankan. Perhatikan id job run, id yang dihasilkan di bawah label Id yang dimulai dengan
jr_
.Ini akan membuka CloudWatch konsol, diatur untuk memvisualisasikan konten grup AWS Glue log default
/aws-glue/jobs/output
, disaring ke konten aliran log untuk id jalankan pekerjaan. Setiap pekerja akan membuat aliran log, ditampilkan sebagai baris di bawah aliran Log. Satu pekerja seharusnya menjalankan kode yang diminta. Anda harus membuka semua aliran log untuk mengidentifikasi pekerja yang benar. Setelah Anda menemukan pekerja yang tepat, Anda akan melihat output skrip, seperti yang terlihat pada gambar berikut:
Prosedur umum yang diperlukan untuk memigrasi program Spark
Menilai dukungan versi Spark
AWS Glueversi rilis menentukan versi Apache Spark dan Python yang tersedia untuk pekerjaan itu. AWS Glue Anda dapat menemukan AWS Glue versi kami dan apa yang mereka dukungAWS Glue versi. Anda mungkin perlu memperbarui program Spark Anda agar kompatibel dengan versi Spark yang lebih baru untuk mengakses fitur tertentu. AWS Glue
Sertakan pustaka pihak ketiga
Banyak program Spark yang ada akan memiliki ketergantungan, baik pada artefak pribadi maupun publik. AWS Gluemendukung dependensi gaya JAR untuk Pekerjaan Scala serta dependensi Roda dan sumber pure-Python untuk pekerjaan Python.
Python - Untuk informasi tentang dependensi Python, lihat Menggunakan pustaka Python dengan Glue AWS
Dependensi Python umum disediakan di AWS Glue lingkungan, termasuk pustaka Pandas yang umum diminta.--additional-python-modules
. Untuk informasi tentang argumen pekerjaan, lihatMenggunakan parameter pekerjaan dalam pekerjaan AWS Glue.
Anda dapat menyediakan dependensi Python tambahan dengan argumen pekerjaan. --extra-py-files
Jika Anda memigrasikan pekerjaan dari program Spark, parameter ini adalah opsi yang baik karena secara fungsional setara dengan --py-files
bendera di PySpark, dan tunduk pada batasan yang sama. Untuk informasi selengkapnya tentang --extra-py-files
parameter, lihat Termasuk file Python dengan fitur asli PySpark
Untuk pekerjaan baru, Anda dapat mengelola dependensi Python dengan argumen pekerjaan. --additional-python-modules
Menggunakan argumen ini memungkinkan pengalaman manajemen ketergantungan yang lebih menyeluruh. Parameter ini mendukung dependensi gaya Roda, termasuk yang memiliki binding kode asli yang kompatibel dengan Amazon Linux 2.
Scala
Anda dapat menyediakan dependensi Scala tambahan dengan Job --extra-jars
Argument. Dependensi harus di-host di Amazon S3 dan nilai argumen harus berupa daftar jalur Amazon S3 yang dibatasi koma tanpa spasi. Anda mungkin merasa lebih mudah untuk mengelola konfigurasi Anda dengan menggabungkan ulang dependensi Anda sebelum menghosting dan mengonfigurasinya. AWS Glue Dependensi JAR berisi bytecode Java, yang dapat dihasilkan dari bahasa JVM apa pun. Anda dapat menggunakan bahasa JVM lainnya, seperti Java, untuk menulis dependensi khusus.
Mengelola kredensi sumber data
Program Spark yang ada mungkin datang dengan konfigurasi yang kompleks atau khusus untuk menarik data dari sumber data mereka. Alur autentikasi sumber data umum didukung oleh koneksi. AWS Glue Untuk informasi selengkapnya tentang koneksi AWS Glue, lihat Menghubungkan ke data.
AWS Gluekoneksi memfasilitasi menghubungkan Job Anda ke berbagai jenis penyimpanan data dengan dua cara utama: melalui panggilan metode ke pustaka kami dan mengatur koneksi jaringan Tambahan di AWS konsol. Anda juga dapat memanggil AWS SDK dari dalam pekerjaan Anda untuk mengambil informasi dari koneksi.
Panggilan metode — AWS Glue Koneksi terintegrasi erat dengan Katalog AWS Glue Data, layanan yang memungkinkan Anda mengkurasi informasi tentang kumpulan data Anda, dan metode yang tersedia untuk berinteraksi dengan AWS Glue koneksi mencerminkan hal itu. Jika Anda memiliki konfigurasi autentikasi yang ingin Anda gunakan kembali, untuk koneksi JDBC, Anda dapat mengakses konfigurasi AWS Glue koneksi Anda melalui metode padaextract_jdbc_conf
. GlueContext
Untuk informasi selengkapnya, lihat extract_jdbc_conf
Konfigurasi konsol — AWS Glue Pekerjaan menggunakan AWS Glue koneksi terkait untuk mengonfigurasi koneksi ke subnet Amazon VPC. Jika Anda langsung mengelola materi keamanan Anda, Anda mungkin perlu menyediakan NETWORK
jenis Koneksi jaringan tambahan di AWS konsol untuk mengonfigurasi perutean. Untuk informasi selengkapnya tentang API AWS Glue koneksi, lihat Koneksi API
Jika program Spark Anda memiliki alur autentikasi khusus atau tidak biasa, Anda mungkin perlu mengelola materi keamanan Anda secara langsung. Jika AWS Glue koneksi sepertinya tidak cocok, Anda dapat meng-host materi keamanan dengan aman di Secrets Manager dan mengaksesnya melalui boto3 atau AWS SDK, yang disediakan dalam pekerjaan.
Konfigurasikan Apache Spark
Migrasi kompleks sering mengubah konfigurasi Spark menjadi beban kerja mereka. Versi modern Apache Spark memungkinkan konfigurasi runtime diatur dengan file. SparkSession
AWS Glue 3.0+ Pekerjaan disediakanSparkSession
, yang dapat dimodifikasi untuk mengatur konfigurasi runtime. Konfigurasi Apache Spark
Mengatur konfigurasi kustom
Program Spark yang dimigrasi dapat dirancang untuk mengambil konfigurasi khusus. AWS Gluememungkinkan konfigurasi diatur pada tingkat pekerjaan dan pekerjaan, melalui argumen pekerjaan. Untuk informasi tentang argumen pekerjaan, lihatMenggunakan parameter pekerjaan dalam pekerjaan AWS Glue. Anda dapat mengakses argumen pekerjaan dalam konteks pekerjaan melalui perpustakaan kami. AWS Gluemenyediakan fungsi utilitas untuk memberikan tampilan yang konsisten antara argumen yang ditetapkan pada pekerjaan dan argumen yang ditetapkan pada pekerjaan yang dijalankan. Lihat Mengakses parameter menggunakan getResolvedOptions di Python dan AWS GlueAPI Scala GlueArgParser di Scala.
Migrasikan kode Java
Seperti dijelaskan dalamSertakan pustaka pihak ketiga, dependensi Anda dapat berisi kelas yang dihasilkan oleh bahasa JVM, seperti Java atau Scala. Dependensi Anda dapat menyertakan metode. main
Anda dapat menggunakan main
metode dalam ketergantungan sebagai titik masuk untuk pekerjaan Scala. AWS Glue Ini memungkinkan Anda untuk menulis main
metode Anda di Java, atau menggunakan kembali main
metode yang dikemas dengan standar perpustakaan Anda sendiri.
Untuk menggunakan main
metode dari dependensi, lakukan hal berikut: Hapus isi panel pengeditan yang menyediakan objek defaultGlueApp
. Berikan nama kelas yang sepenuhnya memenuhi syarat dalam ketergantungan sebagai argumen pekerjaan dengan kunci--class
. Anda kemudian harus dapat memicu Job run.
Anda tidak dapat mengonfigurasi urutan atau struktur argumen yang AWS Glue diteruskan ke main
metode. Jika kode Anda yang ada perlu membaca konfigurasi yang disetelAWS Glue, ini kemungkinan akan menyebabkan ketidakcocokan dengan kode sebelumnya. Jika Anda menggunakangetResolvedOptions
, Anda juga tidak akan memiliki tempat yang baik untuk memanggil metode ini. Pertimbangkan untuk menjalankan dependensi Anda langsung dari metode utama yang dihasilkan oleh. AWS Glue Skrip AWS Glue ETL berikut menunjukkan contoh ini.
import com.amazonaws.services.glue.util.GlueArgParser
object GlueApp {
def main(sysArgs: Array[String]) {
val args = GlueArgParser.getResolvedOptions(sysArgs, Seq("JOB_NAME").toArray)
// Invoke static method from JAR. Pass some sample arguments as a String[], one defined inline and one taken from the job arguments, using getResolvedOptions
com.mycompany.myproject.MyClass.myStaticPublicMethod(Array("string parameter1", args("JOB_NAME")))
// Alternatively, invoke a non-static public method.
(new com.mycompany.myproject.MyClass).someMethod()
}
}