Opsi format data untuk input dan output untuk Spark AWS Glue - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Opsi format data untuk input dan output untuk Spark AWS Glue

Halaman ini menawarkan informasi tentang dukungan fitur dan parameter konfigurasi untuk format data yang didukung oleh AWS Glue for Spark. Lihat berikut ini untuk deskripsi penggunaan dan penerapan informasi ini.

Dukungan fitur di seluruh format data di AWS Glue

Setiap format data dapat mendukung fitur AWS Glue yang berbeda. Fitur umum berikut mungkin atau mungkin tidak didukung berdasarkan jenis format Anda. Lihat dokumentasi untuk format data Anda untuk memahami cara memanfaatkan fitur kami untuk memenuhi kebutuhan Anda.

Baca AWSGlue dapat mengenali dan menafsirkan format data ini tanpa sumber daya tambahan, seperti konektor.
Tulis AWSGlue dapat menulis data dalam format ini tanpa sumber daya tambahan. Anda dapat menyertakan pustaka pihak ketiga dalam pekerjaan Anda dan menggunakan fungsi Apache Spark standar untuk menulis data, seperti yang Anda lakukan di lingkungan Spark lainnya. Untuk informasi selengkapnya tentang menyertakan pustaka, lihatMenggunakan pustaka Python dengan AWS Glue.
Streaming dibaca AWSGlue dapat mengenali dan menafsirkan format data ini dari Apache Kafka, Amazon Managed Streaming for Apache Kafka atau aliran pesan Amazon Kinesis. Kami mengharapkan aliran untuk menyajikan data dalam format yang konsisten, sehingga mereka dibaca sebagaiDataFrames.
Kelompokkan file kecil AWSGlue dapat mengelompokkan file bersama-sama untuk pekerjaan batch yang dikirim ke setiap node saat melakukan transformasi AWS Glue. Ini secara signifikan dapat meningkatkan kinerja untuk beban kerja yang melibatkan sejumlah besar file kecil. Untuk informasi selengkapnya, lihat Membaca file input dalam kelompok yang lebih besar.
Bookmark tugas AWSGlue dapat melacak kemajuan transformasi yang melakukan pekerjaan yang sama pada kumpulan data yang sama di seluruh pekerjaan yang dijalankan dengan bookmark pekerjaan. Ini dapat meningkatkan kinerja untuk beban kerja yang melibatkan kumpulan data di mana pekerjaan hanya perlu dilakukan pada data baru sejak pekerjaan terakhir dijalankan. Untuk informasi selengkapnya, lihat Melacak data yang diproses menggunakan bookmark pekerjaan.

Parameter yang digunakan untuk berinteraksi dengan format data di AWS Glue

Jenis koneksi AWS Glue tertentu mendukung beberapa format jenis, mengharuskan Anda menentukan informasi tentang format data Anda dengan format_options objek saat menggunakan metode sepertiGlueContext.write_dynamic_frame.from_options.

Beberapa jenis koneksi tidak memerlukanformat_options. Misalnya, dalam penggunaan normal, koneksi JDBC ke database relasional mengambil data dalam format data tabular yang konsisten. Oleh karena itu, membaca dari koneksi JDBC tidak memerlukan. format_options

Beberapa metode untuk membaca dan menulis data dalam lem tidak diperlukanformat_options. Misalnya, menggunakan GlueContext.create_dynamic_frame.from_catalog dengan AWS Glue crawler. Crawler menentukan bentuk data Anda. Saat menggunakan crawler, pengklasifikasi AWS Glue akan memeriksa data Anda untuk membuat keputusan cerdas tentang cara merepresentasikan format data Anda. Kemudian akan menyimpan representasi data Anda di AWS Glue Data Catalog, yang dapat digunakan dalam skrip AWS Glue ETL untuk mengambil data Anda dengan metode tersebutGlueContext.create_dynamic_frame.from_catalog. Crawler menghapus kebutuhan untuk menentukan informasi secara manual tentang format data Anda.

Untuk pekerjaan yang mengakses tabel yang AWS Lake Formation diatur, AWS Glue mendukung membaca dan menulis semua format yang didukung oleh tabel yang diatur Lake Formation. Untuk daftar format yang didukung saat ini untuk tabel yang AWS Lake Formation diatur, lihat Catatan dan Pembatasan untuk Tabel yang Diatur dalam Panduan AWS Lake FormationPengembang.

catatan

Untuk menulis Apache Parquet, AWS Glue ETL hanya mendukung penulisan ke tabel yang diatur dengan menentukan opsi untuk jenis penulis Parket kustom yang dioptimalkan untuk Dynamic Frames. Saat menulis ke tabel yang diatur dengan parquet format, Anda harus menambahkan kunci useGlueParquetWriter dengan nilai true dalam parameter tabel.

Referensi konfigurasi bersama

Anda dapat menggunakan format_options nilai berikut dengan jenis format apa pun.

  • attachFilename— Sebuah string dalam format yang sesuai untuk digunakan sebagai nama kolom. Jika Anda memberikan opsi ini, nama file sumber untuk catatan akan ditambahkan ke catatan. Nilai parameter akan digunakan sebagai nama kolom.

  • attachTimestamp— Sebuah string dalam format yang sesuai untuk digunakan sebagai nama kolom. Jika Anda memberikan opsi ini, waktu modifikasi file sumber untuk catatan akan ditambahkan ke catatan. Nilai parameter akan digunakan sebagai nama kolom.