Menggunakan kerangka Hudi di AWS Glue Studio - AWS Glue

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Menggunakan kerangka Hudi di AWS Glue Studio

Saat membuat atau mengedit pekerjaan, AWS Glue Studio secara otomatis menambahkan pustaka Hudi yang sesuai untuk Anda tergantung pada versi yang AWS Glue Anda gunakan. Untuk informasi selengkapnya, lihat Menggunakan kerangka kerja Hudi di. AWS Glue

Menggunakan kerangka Apache Hudi di sumber data Katalog Data

Untuk menambahkan format sumber data Hudi ke pekerjaan:
  1. Dari menu Sumber, pilih Katalog AWS Glue Studio Data.

  2. Di tab Properti sumber data, pilih database dan tabel.

  3. AWS Glue Studiomenampilkan jenis format sebagai Apache Hudi dan URL Amazon S3.

    Tangkapan layar menunjukkan tab properti sumber data untuk simpul sumber Katalog Data.

Menggunakan kerangka kerja Hudi di sumber data Amazon S3

  1. Dari menu Sumber, pilihAmazon S3.

  2. Jika Anda memilih tabel Katalog Data sebagai jenis sumber Amazon S3, pilih database dan tabel.

  3. AWS Glue Studiomenampilkan format sebagai Apache Hudi dan URL Amazon S3.

  4. Jika Anda memilih lokasi Amazon S3 sebagai jenis sumber Amazon S3, pilih URL Amazon S3 dengan mengklik Jelajahi Amazon S3.

  5. Dalam format Data, pilih Apache Hudi.

    catatan

    Jika AWS Glue Studio tidak dapat menyimpulkan skema dari folder Amazon S3 atau file yang Anda pilih, pilih Opsi tambahan untuk memilih folder atau file baru.

    Dalam Opsi tambahan pilih dari opsi berikut di bawah Inferensi skema:

    • Biarkan AWS Glue Studio secara otomatis memilih file sampel - AWS Glue Studio akan memilih file sampel di lokasi Amazon S3 sehingga skema dapat disimpulkan. Di bidang File sampel otomatis, Anda dapat melihat file yang dipilih secara otomatis.

    • Pilih file sampel dari Amazon S3 - pilih file Amazon S3 yang akan digunakan dengan mengklik Jelajahi Amazon S3.

  6. Klik Skema Infer. Anda kemudian dapat melihat skema output dengan mengklik Skema keluaran tab.

  7. Pilih Opsi tambahan untuk memasukkan pasangan kunci-nilai.

    Tangkapan layar menunjukkan bagian Opsi tambahan di tab Properti sumber data untuk simpul sumber data Amazon S3.

Menggunakan kerangka Apache Hudi dalam target data

Menggunakan kerangka Apache Hudi dalam target data Katalog Data

  1. Dari menu Target, pilih Katalog AWS Glue Studio Data.

  2. Di tab Properti sumber data, pilih database dan tabel.

  3. AWS Glue Studiomenampilkan jenis format sebagai Apache Hudi dan URL Amazon S3.

Menggunakan kerangka Apache Hudi di target data Amazon S3

Masukkan nilai atau pilih dari opsi yang tersedia untuk mengonfigurasi format Apache Hudi. Untuk informasi lebih lanjut tentang Apache Hudi, lihat dokumentasi Apache Hudi.

Tangkapan layar menunjukkan bagian Opsi tambahan di tab Properti sumber data untuk simpul sumber data Amazon S3.
  • Nama Tabel Hudi — ini adalah nama tabel hudi Anda.

  • Hudi Storage Type - pilih dari dua opsi:

    • Salin saat menulis - direkomendasikan untuk mengoptimalkan kinerja baca. Ini adalah tipe penyimpanan Hudi default. Setiap pembaruan membuat versi file baru selama penulisan.

    • Gabungkan saat dibaca — disarankan untuk meminimalkan latensi tulis. Pembaruan dicatat ke file delta berbasis baris dan dipadatkan sesuai kebutuhan untuk membuat file kolumnar versi baru.

  • Operasi Tulis Hudi - pilih dari opsi berikut:

    • Upsert - ini adalah operasi default di mana catatan input pertama kali ditandai sebagai sisipan atau pembaruan dengan mencari indeks. Disarankan di mana Anda memperbarui data yang ada.

    • Sisipkan — ini menyisipkan catatan tetapi tidak memeriksa catatan yang ada dan dapat mengakibatkan duplikat.

    • Sisipan Massal — ini menyisipkan catatan dan direkomendasikan untuk sejumlah besar data.

  • Hudi Record Key Fields — gunakan bilah pencarian untuk mencari dan memilih kunci rekam utama. Catatan dalam Hudi diidentifikasi oleh kunci utama yang merupakan sepasang kunci catatan dan jalur partisi tempat catatan berada.

  • Hudi Precombine Field - ini adalah bidang yang digunakan dalam PreCombining sebelum menulis aktual. Ketika dua record memiliki nilai kunci yang sama, AWS Glue Studio akan memilih satu dengan nilai terbesar untuk bidang precombine. Tetapkan bidang dengan nilai tambahan (misalnya updated_at) milik.

  • Jenis Kompresi - pilih dari salah satu opsi jenis kompresi: Tidak Terkompresi, GZIP, LZO, atau Snappy.

  • Lokasi Target Amazon S3 - pilih lokasi target Amazon S3 dengan mengklik Jelajahi S3.

  • Opsi pembaruan Katalog Data - pilih dari opsi berikut:

    • Jangan memutakhirkan Katalog Data: (Default) Pilih opsi ini jika Anda tidak ingin tugas memperbarui Katalog Data, bahkan jika skema berubah atau partisi baru ditambahkan.

    • Buat tabel di Katalog Data dan pada proses berikutnya, perbarui skema dan tambahkan partisi baru: Jika Anda memilih opsi ini, pekerjaan membuat tabel di Katalog Data pada proses pertama pekerjaan. Pada eksekusi tugas berikutnya, tugas memutakhirkan tabel Katalog Data jika skema berubah atau partisi baru ditambahkan.

      Anda juga harus memilih sebuah basis data dari Katalog Data dan memasukkan nama tabel.

    • Membuat tabel di Katalog Data dan eksekusi berikutnya, mempertahankan skema yang ada dan menambahkan partisi baru: Jika Anda memilih opsi ini, maka tugas akan menciptakan tabel di Katalog Data pada eksekusi pertama tugas. Pada eksekusi tugas berikutnya, tugas memutakhirkan tabel Katalog Data hanya jika partisi baru ditambahkan.

      Anda juga harus memilih sebuah basis data dari Katalog Data dan memasukkan nama tabel.

  • Kunci partisi: Pilih kolom mana yang digunakan sebagai kunci partisi dalam output. Untuk menambahkan lebih banyak kunci partisi, pilih Tambahkan kunci partisi.

  • Opsi tambahan - masukkan pasangan kunci-nilai sesuai kebutuhan.

Menghasilkan kode melalui AWS Glue Studio

Ketika pekerjaan disimpan, parameter pekerjaan berikut ditambahkan ke pekerjaan jika sumber atau target Hudi terdeteksi:

  • --datalake-formats— daftar format data lake yang berbeda terdeteksi dalam pekerjaan visual (baik secara langsung dengan memilih “Format” atau secara tidak langsung dengan memilih tabel katalog yang didukung oleh danau data).

  • --conf — dihasilkan berdasarkan nilai--datalake-formats. Misalnya, jika nilai untuk --datalake-formats adalah 'hudi', AWS Glue menghasilkan nilai spark.serializer=org.apache.spark.serializer.KryoSerializer —conf spark.sql.hive.convertMetastoreParquet=false untuk parameter ini.

Mengesampingkan pustaka AWS Glue yang disediakan

Untuk menggunakan versi Hudi yang AWS Glue tidak mendukung, Anda dapat menentukan file JAR perpustakaan Hudi Anda sendiri. Untuk menggunakan file JAR Anda sendiri:

  • gunakan parameter --extra-jars pekerjaan. Sebagai contoh, '--extra-jars': 's3pathtojarfile.jar'. Untuk informasi selengkapnya, lihat parameter AWS Glue pekerjaan.

  • tidak termasuk hudi sebagai nilai untuk parameter --datalake-formats pekerjaan. Memasukkan string kosong sebagai nilai memastikan bahwa tidak ada pustaka data lake yang disediakan untuk Anda secara AWS Glue otomatis. Untuk informasi selengkapnya, lihat Menggunakan kerangka kerja Hudi di. AWS Glue