Menggunakan kerangka Hudi di AWS Glue Studio

Mode fokus

Menggunakan kerangka Hudi di AWS Glue Studio - AWS Glue

Menggunakan kerangka Apache Hudi dalam target data Menghasilkan kode melalui AWS Glue Studio Mengesampingkan AWS Glue-perpustakaan yang disediakan

Saat membuat atau mengedit pekerjaan, AWS Glue Studio secara otomatis menambahkan pustaka Hudi yang sesuai untuk Anda tergantung pada versi AWS Glue Anda menggunakan. Untuk informasi selengkapnya, lihat Menggunakan kerangka kerja Hudi di AWS Glue.

Menggunakan kerangka Apache Hudi di sumber data Katalog Data

Untuk menambahkan format sumber data Hudi ke pekerjaan:

Dari menu Sumber, pilih AWS Glue Studio Katalog Data.
Di tab Properti sumber data, pilih database dan tabel.
AWS Glue Studio menampilkan jenis format sebagai Apache Hudi dan URL Amazon S3.

Menggunakan kerangka kerja Hudi di sumber data Amazon S3

Dari menu Sumber, pilih Amazon S3.
Jika Anda memilih tabel Katalog Data sebagai jenis sumber Amazon S3, pilih database dan tabel.
AWS Glue Studio menampilkan format sebagai Apache Hudi dan URL Amazon S3.
Jika Anda memilih lokasi Amazon S3 sebagai jenis sumber Amazon S3, pilih URL Amazon S3 dengan mengklik Jelajahi Amazon S3.
Dalam format Data, pilih Apache Hudi.
catatan
Jika AWS Glue Studio tidak dapat menyimpulkan skema dari folder Amazon S3 atau file yang Anda pilih, pilih Opsi tambahan untuk memilih folder atau file baru.
Dalam Opsi tambahan pilih dari opsi berikut di bawah Inferensi skema:
- Biarkan AWS Glue Studio secara otomatis memilih file sampel - AWS Glue Studio akan memilih file sampel di lokasi Amazon S3 sehingga skema dapat disimpulkan. Di bidang File sampel otomatis, Anda dapat melihat file yang dipilih secara otomatis.
- Pilih file sampel dari Amazon S3 - pilih file Amazon S3 yang akan digunakan dengan mengklik Jelajahi Amazon S3.
Klik Menyimpulkan skema. Anda kemudian dapat melihat skema output dengan mengklik Skema keluaran tab.
Pilih Opsi tambahan untuk memasukkan pasangan kunci-nilai.

Menggunakan kerangka Apache Hudi dalam target data

Menggunakan kerangka Apache Hudi dalam target data Katalog Data

Dari menu Target, pilih AWS Glue Studio Katalog Data.
Di tab Properti sumber data, pilih database dan tabel.
AWS Glue Studio menampilkan jenis format sebagai Apache Hudi dan URL Amazon S3.

Menggunakan kerangka Apache Hudi di target data Amazon S3

Masukkan nilai atau pilih dari opsi yang tersedia untuk mengonfigurasi format Apache Hudi. Untuk informasi lebih lanjut tentang Apache Hudi, lihat dokumentasi Apache Hudi.

Tangkapan layar menunjukkan bagian Opsi tambahan di tab Properti sumber data untuk simpul sumber data Amazon S3.

Nama Tabel Hudi — ini adalah nama tabel hudi Anda.
Hudi Storage Type - pilih dari dua opsi:
- Salin saat menulis - direkomendasikan untuk mengoptimalkan kinerja baca. Ini adalah tipe penyimpanan Hudi default. Setiap pembaruan membuat versi file baru selama penulisan.
- Gabungkan saat dibaca — disarankan untuk meminimalkan latensi tulis. Pembaruan dicatat ke file delta berbasis baris dan dipadatkan sesuai kebutuhan untuk membuat file kolumnar versi baru.
Operasi Tulis Hudi - pilih dari opsi berikut:
- Upsert - ini adalah operasi default di mana catatan input pertama kali ditandai sebagai sisipan atau pembaruan dengan mencari indeks. Disarankan di mana Anda memperbarui data yang ada.
- Sisipkan — ini menyisipkan catatan tetapi tidak memeriksa catatan yang ada dan dapat mengakibatkan duplikat.
- Sisipan Massal — ini menyisipkan catatan dan direkomendasikan untuk sejumlah besar data.
Hudi Record Key Fields — gunakan bilah pencarian untuk mencari dan memilih kunci rekam utama. Catatan dalam Hudi diidentifikasi oleh kunci utama yang merupakan sepasang kunci catatan dan jalur partisi tempat catatan berada.
Hudi Precombine Field - ini adalah bidang yang digunakan dalam PreCombining sebelum menulis aktual. Ketika dua catatan memiliki nilai kunci yang sama, AWS Glue Studio akan memilih salah satu dengan nilai terbesar untuk bidang precombine. Tetapkan bidang dengan nilai tambahan (misalnya updated_at) milik.
Jenis Kompresi - pilih dari salah satu opsi jenis kompresi: Tidak Terkompresi, GZIP, LZO, atau Snappy.
Lokasi Target Amazon S3 - pilih lokasi target Amazon S3 dengan mengklik Jelajahi S3.
Opsi pembaruan Katalog Data - pilih dari opsi berikut:
- Jangan memutakhirkan Katalog Data: (Default) Pilih opsi ini jika Anda tidak ingin tugas memperbarui Katalog Data, bahkan jika skema berubah atau partisi baru ditambahkan.
- Buat tabel di Katalog Data dan pada proses berikutnya, perbarui skema dan tambahkan partisi baru: Jika Anda memilih opsi ini, pekerjaan membuat tabel di Katalog Data pada proses pertama pekerjaan. Pada eksekusi tugas berikutnya, tugas memutakhirkan tabel Katalog Data jika skema berubah atau partisi baru ditambahkan.
  
  Anda juga harus memilih sebuah basis data dari Katalog Data dan memasukkan nama tabel.
- Membuat tabel di Katalog Data dan eksekusi berikutnya, mempertahankan skema yang ada dan menambahkan partisi baru: Jika Anda memilih opsi ini, maka tugas akan menciptakan tabel di Katalog Data pada eksekusi pertama tugas. Pada eksekusi tugas berikutnya, tugas memutakhirkan tabel Katalog Data hanya jika partisi baru ditambahkan.
  
  Anda juga harus memilih sebuah basis data dari Katalog Data dan memasukkan nama tabel.
Kunci partisi: Pilih kolom mana yang digunakan sebagai kunci partisi dalam output. Untuk menambahkan lebih banyak kunci partisi, pilih Tambahkan kunci partisi.
Opsi tambahan - masukkan pasangan kunci-nilai sesuai kebutuhan.

Menghasilkan kode melalui AWS Glue Studio

Ketika pekerjaan disimpan, parameter pekerjaan berikut ditambahkan ke pekerjaan jika sumber atau target Hudi terdeteksi:

--datalake-formats— daftar format data lake yang berbeda terdeteksi dalam pekerjaan visual (baik secara langsung dengan memilih “Format” atau secara tidak langsung dengan memilih tabel katalog yang didukung oleh danau data).
--conf — dihasilkan berdasarkan nilai--datalake-formats. Misalnya, jika nilai untuk --datalake-formats adalah 'hudi', AWS Glue menghasilkan nilai spark.serializer=org.apache.spark.serializer.KryoSerializer —conf spark.sql.hive.convertMetastoreParquet=false untuk parameter ini.

Mengesampingkan AWS Glue-perpustakaan yang disediakan

Untuk menggunakan versi Hudi yang AWS Glue tidak mendukung, Anda dapat menentukan file JAR perpustakaan Hudi Anda sendiri. Untuk menggunakan file JAR Anda sendiri:

gunakan parameter --extra-jars pekerjaan. Misalnya, '--extra-jars': 's3pathtojarfile.jar'. Untuk informasi selengkapnya, silakan lihat AWS Glue parameter pekerjaan.
tidak termasuk hudi sebagai nilai untuk parameter --datalake-formats pekerjaan. Memasukkan string kosong sebagai nilai memastikan bahwa tidak ada pustaka data lake yang disediakan untuk Anda oleh AWS Glue secara otomatis. Untuk informasi selengkapnya, lihat Menggunakan kerangka kerja Hudi di AWS Glue.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menggunakan kerangka Data Lake dengan AWS Glue Studio

Menggunakan kerangka Delta Lake di AWS Glue Studio

Topik berikutnya:

Menggunakan kerangka Delta Lake di AWS Glue Studio

Topik sebelumnya:

Menggunakan kerangka Data Lake dengan AWS Glue Studio

Perlu bantuan?

Di halaman ini

Pilih preferensi cookie Anda

Sesuaikan preferensi cookie

Penting

Kinerja

Fungsional

Iklan

Tidak dapat menyimpan preferensi cookie