Menghubungkan ke data dalam pekerjaan Ray - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menghubungkan ke data dalam pekerjaan Ray

AWS GluePekerjaan Ray dapat menggunakan beragam paket Python yang dirancang agar Anda dapat mengintegrasikan data dengan cepat. Kami menyediakan satu set dependensi minimal agar tidak mengacaukan lingkungan Anda. Untuk informasi selengkapnya tentang apa yang disertakan secara default, lihatModul disediakan dengan pekerjaan Ray.

catatan

AWS Glueekstrak, transformasi, dan muat (ETL) menyediakan DynamicFrame abstraksi untuk merampingkan alur kerja ETL tempat Anda menyelesaikan perbedaan skema antar baris dalam kumpulan data Anda. AWS Glue ETL menyediakan fitur tambahan—bookmark pekerjaan dan pengelompokan file input. Saat ini kami tidak menyediakan fitur yang sesuai dalam pekerjaan Ray.

AWS Glueuntuk Spark menyediakan dukungan langsung untuk menghubungkan ke format data tertentu, sumber dan sink. Di Ray, AWS SDK untuk panda dan pustaka pihak ketiga saat ini secara substansif mencakup kebutuhan itu. Anda perlu berkonsultasi dengan perpustakaan tersebut untuk memahami kemampuan apa yang tersedia.

AWS Glueuntuk integrasi Ray dengan Amazon VPC saat ini tidak tersedia. Sumber daya di Amazon VPC tidak akan dapat diakses tanpa rute umum. Untuk informasi selengkapnya tentang penggunaan AWS Glue dengan Amazon VPC, lihat. Mengkonfigurasi VPC titik akhir antarmuka (AWS PrivateLink) untuk AWS Glue ()AWS PrivateLink

Pustaka umum untuk bekerja dengan data di Ray

Ray Data — Ray Data menyediakan metode untuk menangani format data umum, sumber dan sink. Untuk informasi selengkapnya tentang format dan sumber yang didukung di Ray Data, lihat Input/Output dalam dokumentasi Ray Data. Ray Data adalah pustaka berpendirian, bukan pustaka tujuan umum, untuk menangani kumpulan data.

Ray memberikan panduan tertentu seputar kasus penggunaan di mana Ray Data mungkin menjadi solusi terbaik untuk pekerjaan Anda. Untuk informasi selengkapnya, lihat Kasus penggunaan Ray dalam dokumentasi Ray.

AWSSDK untuk panda (awswrangler) - AWS SDK untuk panda adalah AWS produk yang memberikan solusi yang bersih dan teruji untuk membaca dan menulis ke AWS layanan saat transformasi Anda mengelola data dengan panda. DataFrames Untuk informasi selengkapnya tentang format dan sumber yang didukung di AWS SDK untuk panda, lihat Referensi API di dokumentasi AWS SDK untuk panda.

Untuk contoh cara membaca dan menulis data dengan AWS SDK untuk panda, lihat Mulai Cepat di dokumentasi AWS SDK untuk panda. AWSSDK untuk panda tidak menyediakan transformasi untuk data Anda. Ini hanya memberikan dukungan untuk membaca dan menulis dari sumber.

Modin - Modin adalah pustaka Python yang mengimplementasikan operasi panda umum dengan cara yang dapat didistribusikan. Untuk informasi lebih lanjut tentang Modin, lihat dokumentasi Modin. Modin sendiri tidak memberikan dukungan untuk membaca dan menulis dari sumber. Ini menyediakan implementasi terdistribusi dari transformasi umum. Modin didukung oleh AWS SDK untuk panda.

Saat Anda menjalankan Modin dan AWS SDK untuk panda bersama-sama di lingkungan Ray, Anda dapat melakukan tugas ETL umum dengan hasil kinerja. Untuk informasi selengkapnya tentang penggunaan Modin dengan AWS SDK untuk panda, lihat Pada skala di dokumentasi AWS SDK untuk panda.

Kerangka kerja lainnya — Untuk informasi selengkapnya tentang kerangka kerja yang didukung Ray, lihat Ekosistem Sinar dalam dokumentasi Ray. Kami tidak menyediakan dukungan untuk kerangka kerja lain di AWS Glue untuk Ray.

Menghubungkan ke data melalui Katalog Data

Mengelola data Anda melalui Katalog Data bersama dengan pekerjaan Ray didukung dengan AWS SDK untuk panda. Untuk informasi selengkapnya, lihat Glue Catalog di AWS situs SDK for pandas.