Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Saat membuat atau mengedit pekerjaan, AWS Glue Studio secara otomatis menambahkan pustaka Hudi yang sesuai untuk Anda tergantung pada versi AWS Glue Anda menggunakan. Untuk informasi selengkapnya, lihat Menggunakan kerangka kerja Hudi di AWS Glue.
Menggunakan kerangka Apache Hudi di sumber data Katalog Data
Untuk menambahkan format sumber data Hudi ke pekerjaan:
-
Dari menu Sumber, pilih AWS Glue Studio Katalog Data.
-
Di tab Properti sumber data, pilih database dan tabel.
-
AWS Glue Studio menampilkan jenis format sebagai Apache Hudi dan URL Amazon S3.
Menggunakan kerangka kerja Hudi di sumber data Amazon S3
-
Dari menu Sumber, pilih Amazon S3.
-
Jika Anda memilih tabel Katalog Data sebagai jenis sumber Amazon S3, pilih database dan tabel.
-
AWS Glue Studio menampilkan format sebagai Apache Hudi dan URL Amazon S3.
-
Jika Anda memilih lokasi Amazon S3 sebagai jenis sumber Amazon S3, pilih URL Amazon S3 dengan mengklik Jelajahi Amazon S3.
-
Dalam format Data, pilih Apache Hudi.
catatan
Jika AWS Glue Studio tidak dapat menyimpulkan skema dari folder Amazon S3 atau file yang Anda pilih, pilih Opsi tambahan untuk memilih folder atau file baru.
Dalam Opsi tambahan pilih dari opsi berikut di bawah Inferensi skema:
-
Biarkan AWS Glue Studio secara otomatis memilih file sampel - AWS Glue Studio akan memilih file sampel di lokasi Amazon S3 sehingga skema dapat disimpulkan. Di bidang File sampel otomatis, Anda dapat melihat file yang dipilih secara otomatis.
-
Pilih file sampel dari Amazon S3 - pilih file Amazon S3 yang akan digunakan dengan mengklik Jelajahi Amazon S3.
-
-
Klik Menyimpulkan skema. Anda kemudian dapat melihat skema output dengan mengklik Skema keluaran tab.
-
Pilih Opsi tambahan untuk memasukkan pasangan kunci-nilai.
Menggunakan kerangka Apache Hudi dalam target data
Menggunakan kerangka Apache Hudi dalam target data Katalog Data
-
Dari menu Target, pilih AWS Glue Studio Katalog Data.
-
Di tab Properti sumber data, pilih database dan tabel.
-
AWS Glue Studio menampilkan jenis format sebagai Apache Hudi dan URL Amazon S3.
Menggunakan kerangka Apache Hudi di target data Amazon S3
Masukkan nilai atau pilih dari opsi yang tersedia untuk mengonfigurasi format Apache Hudi. Untuk informasi lebih lanjut tentang Apache Hudi, lihat dokumentasi Apache

-
Nama Tabel Hudi — ini adalah nama tabel hudi Anda.
-
Hudi Storage Type - pilih dari dua opsi:
-
Salin saat menulis - direkomendasikan untuk mengoptimalkan kinerja baca. Ini adalah tipe penyimpanan Hudi default. Setiap pembaruan membuat versi file baru selama penulisan.
-
Gabungkan saat dibaca — disarankan untuk meminimalkan latensi tulis. Pembaruan dicatat ke file delta berbasis baris dan dipadatkan sesuai kebutuhan untuk membuat file kolumnar versi baru.
-
-
Operasi Tulis Hudi - pilih dari opsi berikut:
-
Upsert - ini adalah operasi default di mana catatan input pertama kali ditandai sebagai sisipan atau pembaruan dengan mencari indeks. Disarankan di mana Anda memperbarui data yang ada.
-
Sisipkan — ini menyisipkan catatan tetapi tidak memeriksa catatan yang ada dan dapat mengakibatkan duplikat.
-
Sisipan Massal — ini menyisipkan catatan dan direkomendasikan untuk sejumlah besar data.
-
-
Hudi Record Key Fields — gunakan bilah pencarian untuk mencari dan memilih kunci rekam utama. Catatan dalam Hudi diidentifikasi oleh kunci utama yang merupakan sepasang kunci catatan dan jalur partisi tempat catatan berada.
-
Hudi Precombine Field - ini adalah bidang yang digunakan dalam PreCombining sebelum menulis aktual. Ketika dua catatan memiliki nilai kunci yang sama, AWS Glue Studio akan memilih salah satu dengan nilai terbesar untuk bidang precombine. Tetapkan bidang dengan nilai tambahan (misalnya updated_at) milik.
-
Jenis Kompresi - pilih dari salah satu opsi jenis kompresi: Tidak Terkompresi, GZIP, LZO, atau Snappy.
-
Lokasi Target Amazon S3 - pilih lokasi target Amazon S3 dengan mengklik Jelajahi S3.
-
Opsi pembaruan Katalog Data - pilih dari opsi berikut:
-
Jangan memutakhirkan Katalog Data: (Default) Pilih opsi ini jika Anda tidak ingin tugas memperbarui Katalog Data, bahkan jika skema berubah atau partisi baru ditambahkan.
-
Buat tabel di Katalog Data dan pada proses berikutnya, perbarui skema dan tambahkan partisi baru: Jika Anda memilih opsi ini, pekerjaan membuat tabel di Katalog Data pada proses pertama pekerjaan. Pada eksekusi tugas berikutnya, tugas memutakhirkan tabel Katalog Data jika skema berubah atau partisi baru ditambahkan.
Anda juga harus memilih sebuah basis data dari Katalog Data dan memasukkan nama tabel.
-
Membuat tabel di Katalog Data dan eksekusi berikutnya, mempertahankan skema yang ada dan menambahkan partisi baru: Jika Anda memilih opsi ini, maka tugas akan menciptakan tabel di Katalog Data pada eksekusi pertama tugas. Pada eksekusi tugas berikutnya, tugas memutakhirkan tabel Katalog Data hanya jika partisi baru ditambahkan.
Anda juga harus memilih sebuah basis data dari Katalog Data dan memasukkan nama tabel.
-
-
Kunci partisi: Pilih kolom mana yang digunakan sebagai kunci partisi dalam output. Untuk menambahkan lebih banyak kunci partisi, pilih Tambahkan kunci partisi.
-
Opsi tambahan - masukkan pasangan kunci-nilai sesuai kebutuhan.
Menghasilkan kode melalui AWS Glue Studio
Ketika pekerjaan disimpan, parameter pekerjaan berikut ditambahkan ke pekerjaan jika sumber atau target Hudi terdeteksi:
-
--datalake-formats
— daftar format data lake yang berbeda terdeteksi dalam pekerjaan visual (baik secara langsung dengan memilih “Format” atau secara tidak langsung dengan memilih tabel katalog yang didukung oleh danau data). -
--conf
— dihasilkan berdasarkan nilai--datalake-formats
. Misalnya, jika nilai untuk--datalake-formats
adalah 'hudi', AWS Glue menghasilkan nilaispark.serializer=org.apache.spark.serializer.KryoSerializer —conf spark.sql.hive.convertMetastoreParquet=false
untuk parameter ini.
Mengesampingkan AWS Glue-perpustakaan yang disediakan
Untuk menggunakan versi Hudi yang AWS Glue tidak mendukung, Anda dapat menentukan file JAR perpustakaan Hudi Anda sendiri. Untuk menggunakan file JAR Anda sendiri:
-
gunakan parameter
--extra-jars
pekerjaan. Misalnya,'--extra-jars': 's3pathtojarfile.jar'
. Untuk informasi selengkapnya, silakan lihat AWS Glue parameter pekerjaan. -
tidak termasuk
hudi
sebagai nilai untuk parameter--datalake-formats
pekerjaan. Memasukkan string kosong sebagai nilai memastikan bahwa tidak ada pustaka data lake yang disediakan untuk Anda oleh AWS Glue secara otomatis. Untuk informasi selengkapnya, lihat Menggunakan kerangka kerja Hudi di AWS Glue.