Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Menghubungkan ke data dalam pekerjaan Ray
AWS GluePekerjaan Ray dapat menggunakan beragam paket Python yang dirancang agar Anda dapat mengintegrasikan data dengan cepat. Kami menyediakan satu set dependensi minimal agar tidak mengacaukan lingkungan Anda. Untuk informasi selengkapnya tentang apa yang disertakan secara default, lihatModul disediakan dengan pekerjaan Ray.
catatan
AWS Glueekstrak, transformasi, dan muat (ETL) menyediakan DynamicFrame abstraksi untuk merampingkan alur kerja ETL tempat Anda menyelesaikan perbedaan skema antar baris dalam kumpulan data Anda. AWS Glue ETL menyediakan fitur tambahan—bookmark pekerjaan dan pengelompokan file input. Saat ini kami tidak menyediakan fitur yang sesuai dalam pekerjaan Ray.
AWS Glueuntuk Spark menyediakan dukungan langsung untuk menghubungkan ke format data tertentu, sumber dan sink. Di Ray, AWS SDK untuk panda dan pustaka pihak ketiga saat ini secara substansif mencakup kebutuhan itu. Anda perlu berkonsultasi dengan perpustakaan tersebut untuk memahami kemampuan apa yang tersedia.
AWS Glueuntuk integrasi Ray dengan Amazon VPC saat ini tidak tersedia. Sumber daya di Amazon VPC tidak akan dapat diakses tanpa rute umum. Untuk informasi selengkapnya tentang penggunaan AWS Glue dengan Amazon VPC, lihat. Mengkonfigurasi VPC titik akhir antarmuka (AWS PrivateLink) untuk AWS Glue ()AWS PrivateLink
Pustaka umum untuk bekerja dengan data di Ray
Ray Data — Ray Data menyediakan metode untuk menangani format data umum, sumber dan sink. Untuk informasi selengkapnya tentang format dan sumber yang didukung di Ray Data, lihat Input/Output dalam dokumentasi
Ray memberikan panduan tertentu seputar kasus penggunaan di mana Ray Data mungkin menjadi solusi terbaik untuk pekerjaan Anda. Untuk informasi selengkapnya, lihat Kasus penggunaan Ray
AWSSDK untuk panda (awswrangler) - AWS SDK untuk panda adalah AWS produk yang memberikan solusi yang bersih dan teruji untuk membaca dan menulis ke AWS layanan saat transformasi Anda mengelola data dengan panda. DataFrames Untuk informasi selengkapnya tentang format dan sumber yang didukung di AWS SDK untuk panda, lihat Referensi API di dokumentasi
Untuk contoh cara membaca dan menulis data dengan AWS SDK untuk panda, lihat Mulai Cepat
Modin - Modin adalah pustaka Python yang mengimplementasikan operasi panda umum dengan cara yang dapat didistribusikan. Untuk informasi lebih lanjut tentang Modin, lihat dokumentasi Modin
Saat Anda menjalankan Modin dan AWS SDK untuk panda bersama-sama di lingkungan Ray, Anda dapat melakukan tugas ETL umum dengan hasil kinerja. Untuk informasi selengkapnya tentang penggunaan Modin dengan AWS SDK untuk panda, lihat Pada skala di dokumentasi
Kerangka kerja lainnya — Untuk informasi selengkapnya tentang kerangka kerja yang didukung Ray, lihat Ekosistem Sinar
Menghubungkan ke data melalui Katalog Data
Mengelola data Anda melalui Katalog Data bersama dengan pekerjaan Ray didukung dengan AWS SDK untuk panda. Untuk informasi selengkapnya, lihat Glue Catalog