Hudi - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Hudi

Apache Hudi adalah kerangka manajemen data sumber terbuka yang digunakan untuk menyederhanakan pengolahan data tambahan dan pengembangan data pipelin dengan menyediakan kemampuan menyisipkan, memperbarui, menambahkan, dan menghapus tingkat rekor. Menambahkan mengacu pada kemampuan untuk menyisipkan catatan ke dalam set data yang ada jika belum tersedia atau untuk memperbaruinya jika tersedia. Dengan mengelola peletakan data di Amazon S3 secara efisien, Hudi memungkinkan data untuk diserap dan diperbarui dalam waktu dekat secara lansgung. Hudi mempertahankan metadata dari tindakan yang dilakukan pada set data secara hati-hati untuk membantu memastikan bahwa tindakan bersifat atom dan konsisten.

Hudi terintegrasi dengan Apache percikan, Apache Hive, dan Presto. Di Amazon versi EMR rilis 6.1.0 dan yang lebih baru, Hudi juga terintegrasi dengan Trino (Presto). SQL

Dengan versi EMR rilis Amazon 5.28.0 dan yang lebih baru, EMR menginstal komponen Hudi secara default saat Spark, Hive, Presto, atau Flink diinstal. Anda dapat menggunakan Spark atau DeltaStreamer utilitas Hudi untuk membuat atau memperbarui kumpulan data Hudi. Anda dapat menggunakan Hive, Spark, Presto, atau Flink untuk menanyakan dataset Hudi secara interaktif atau membangun pipeline pemrosesan data menggunakan incremental pull. Tarikan tambahan mengacu pada kemampuan untuk hanya menarik data yang berubah antara dua tindakan.

Fitur-fitur ini membuat Hudi cocok untuk kasus penggunaan berikut:

  • Bekerja dengan data streaming dari sensor dan perangkat Internet untuk Segala (IoT) lainnya yang memerlukan penyisipan data dan pembaruan peristiwa tertentu.

  • Mematuhi peraturan privasi data dalam aplikasi di mana pengguna mungkin memilih untuk dilupakan atau mengubah persetujuan tentang bagaimana data mereka dapat digunakan.

  • Menerapkan sistem change data capture (CDC) yang memungkinkan Anda menerapkan perubahan pada kumpulan data dari waktu ke waktu.

Tabel berikut mencantumkan versi Hudi yang termasuk dalam rilis terbaru seri Amazon EMR 7.x, bersama dengan komponen yang EMR dipasang Amazon dengan Hudi.

Untuk versi komponen yang diinstal dengan Hudi dalam rilis ini, lihat Release 7.2.0 Component Versions.

Informasi versi Hudi untuk emr-7.2.0
Label EMR Rilis Amazon Versi Hudi Komponen Dipasang Dengan Hudi

emr-7.2.0

Hudi 0.14.1-amzn-1

Not available.

Tabel berikut mencantumkan versi Hudi yang termasuk dalam rilis terbaru seri Amazon EMR 6.x, bersama dengan komponen yang EMR dipasang Amazon dengan Hudi.

Untuk versi komponen yang diinstal dengan Hudi dalam rilis ini, lihat Rilis Versi Komponen 6.15.0.

Informasi versi Hudi untuk emr-6.15.0
Label EMR Rilis Amazon Versi Hudi Komponen Dipasang Dengan Hudi

emr-6.15.0

Hudi 0.14.0-amzn-0

Not available.

catatan

Amazon EMR rilis 6.8.0 hadir dengan Apache Hudi 0.11.1; Namun, EMR Amazon 6.8.0 cluster juga kompatibel dengan open-source dari Hudi 0.12.0. hudi-spark3.3-bundle_2.12

Tabel berikut mencantumkan versi Hudi yang disertakan dalam rilis terbaru seri Amazon EMR 5.x, bersama dengan komponen yang EMR dipasang Amazon dengan Hudi.

Untuk versi komponen yang diinstal dengan Hudi dalam rilis ini, lihat Rilis 5.36.2 Versi Komponen.

Informasi versi Hudi untuk emr-5.36.2
Label EMR Rilis Amazon Versi Hudi Komponen Dipasang Dengan Hudi

emr-5.36.2

Hudi 0.10.1-amzn-1

Not available.