Bekerja dengan pekerjaan Ray di AWS Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Bekerja dengan pekerjaan Ray di AWS Glue

Bagian ini memberikan informasi tentang penggunaan AWS Glue untuk pekerjaan Ray. Untuk informasi lebih lanjut tentang menulis AWS Glue untuk skrip Ray, lihat Pemrograman skrip Ray bagian ini.

Memulai dengan AWS Glue untuk Ray

Untuk bekerja dengan AWS Glue Ray, Anda menggunakan AWS Glue pekerjaan yang sama dan sesi interaktif yang Anda gunakan AWS Glue untuk Spark. AWS Gluepekerjaan dirancang untuk menjalankan skrip yang sama pada irama berulang, sementara sesi interaktif dirancang untuk memungkinkan Anda menjalankan cuplikan kode secara berurutan terhadap sumber daya yang disediakan yang sama.

AWS GlueETL dan Ray berbeda di bawahnya, jadi dalam skrip Anda, Anda memiliki akses ke berbagai alat, fitur, dan konfigurasi. Sebagai kerangka komputasi baru yang dikelola olehAWS Glue, Ray memiliki arsitektur yang berbeda dan menggunakan kosakata yang berbeda untuk menggambarkan apa yang dilakukannya. Untuk informasi selengkapnya, lihat Whitepaper Arsitektur dalam dokumentasi Ray.

catatan

AWS Glueuntuk Ray tersedia di AS Timur (Virginia N.), AS Timur (Ohio), AS Barat (Oregon), Asia Pasifik (Tokyo), dan Eropa (Irlandia).

Pekerjaan Ray di AWS Glue Studio konsol

Pada halaman Jobs di AWS Glue Studio konsol, Anda dapat memilih opsi baru saat Anda membuat pekerjaan di AWS Glue Studio — Ray script editor. Pilih opsi ini untuk membuat pekerjaan Ray di konsol. Untuk informasi selengkapnya tentang pekerjaan dan cara penggunaannya, lihatMembangun pekerjaan ETL visual dengan AWS Glue Studio.

Halaman Jobs AWS Glue Studio dengan opsi editor skrip Ray dipilih.

lowongan kerja Ray di AWS CLI dan SDK

Pekerjaan Ray dalam AWS CLI menggunakan tindakan dan parameter SDK yang sama dengan pekerjaan lainnya. AWS Glueuntuk Ray memperkenalkan nilai-nilai baru untuk parameter tertentu. Untuk informasi selengkapnya di API Pekerjaan, lihatTugas.

Lingkungan runtime Ray yang didukung

Dalam pekerjaan Spark, GlueVersion menentukan versi Apache Spark dan Python yang tersedia dalam pekerjaan untuk Spark. AWS Glue Versi Python menunjukkan versi yang didukung untuk pekerjaan jenis Spark. Ini bukan bagaimana lingkungan runtime Ray dikonfigurasi.

Untuk pekerjaan Ray, Anda harus mengatur GlueVersion ke 4.0 atau lebih besar. Namun, versi Ray, Python, dan pustaka tambahan yang tersedia di pekerjaan Ray Anda ditentukan oleh Runtime bidang dalam definisi pekerjaan.

Lingkungan Ray2.4 runtime akan tersedia minimal 6 bulan setelah rilis. Saat Ray berkembang pesat, Anda akan dapat menggabungkan pembaruan dan peningkatan Ray melalui rilis lingkungan runtime masa depan.

Nilai yang valid: Ray2.4

Nilai runtime Versi Ray dan Python
Ray2.4(untuk AWS Glue 4.0+)

Sinar 2.4.0

Python 3.9

Informasi tambahan

Akuntansi untuk pekerja di pekerjaan Ray

AWS Gluemenjalankan pekerjaan Ray pada tipe pekerja EC2 berbasis Graviton baru, yang hanya tersedia untuk pekerjaan Ray. Untuk menyediakan pekerja ini dengan tepat untuk beban kerja yang dirancang Ray, kami menyediakan rasio sumber daya komputasi yang berbeda terhadap sumber daya memori dari sebagian besar pekerja. Untuk memperhitungkan sumber daya ini, kami menggunakan unit pemrosesan data yang dioptimalkan memori (M-DPU) daripada unit pemrosesan data standar (DPU).

  • Satu M-DPU sesuai dengan 4 vCPU dan memori 32 GB.

  • Satu DPU sesuai dengan 4 vCPU dan memori 16 GB. DPU digunakan untuk memperhitungkan sumber daya AWS Glue dengan pekerjaan Spark dan pekerja terkait.

Pekerjaan Ray saat ini memiliki akses ke satu jenis pekerja,Z.2X. Z.2XPekerja memetakan ke 2 m-DPU (8 vCPU, memori 64 GB) dan memiliki ruang disk 128 GB. Sebuah Z.2X mesin menyediakan 8 pekerja Ray (satu per vCPU).

Jumlah m-DPU yang dapat Anda gunakan secara bersamaan di akun tunduk pada kuota layanan. Untuk informasi selengkapnya tentang batas AWS Glue akun Anda, lihat AWS Gluetitik akhir dan kuota.

Anda menentukan jumlah node pekerja yang tersedia untuk pekerjaan Ray dengan --number-of-workers (NumberOfWorkers) dalam definisi pekerjaan. Untuk informasi selengkapnya tentang nilai Ray di Jobs API, lihatTugas.

Anda selanjutnya dapat menentukan jumlah minimum pekerja yang harus dialokasikan oleh pekerjaan Ray dengan parameter --min-workers pekerjaan. Untuk informasi selengkapnya tentang parameter pekerjaan, lihatReferensi.