Hudi - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Hudi

Apache Hudi adalah kerangka manajemen data sumber terbuka yang digunakan untuk menyederhanakan pengolahan data tambahan dan pengembangan data pipelin dengan menyediakan kemampuan menyisipkan, memperbarui, menambahkan, dan menghapus tingkat rekor. Menambahkan mengacu pada kemampuan untuk menyisipkan catatan ke dalam set data yang ada jika belum tersedia atau untuk memperbaruinya jika tersedia. Dengan mengelola peletakan data di Amazon S3 secara efisien, Hudi memungkinkan data untuk diserap dan diperbarui dalam waktu dekat secara lansgung. Hudi mempertahankan metadata dari tindakan yang dilakukan pada set data secara hati-hati untuk membantu memastikan bahwa tindakan bersifat atom dan konsisten.

Hudi terintegrasi dengan Apache percikan, Apache Hive, dan Presto. Di Amazon EMR rilis versi 6.1.0 dan yang lebih baru, Hudi juga terintegrasi dengan Trino (PrestoSQL).

Dengan Amazon EMR rilis versi 5.28.0 dan yang lebih baru, EMR menginstal komponen Hudi secara default ketika Spark, Hive, Presto, atau Flink diinstal. Anda dapat menggunakan DeltaStreamer utilitas Spark atau Hudi untuk membuat atau memperbarui set data Hudi. Anda dapat menggunakan Hive, Spark, Presto, atau Flink untuk mengkueri set data Hudi secara interaktif atau membangun alur pengolahan data menggunakan tarik tambahan. Tarikan tambahan mengacu pada kemampuan untuk hanya menarik data yang berubah antara dua tindakan.

Fitur-fitur ini membuat Hudi cocok untuk kasus penggunaan berikut:

  • Bekerja dengan data streaming dari sensor dan perangkat Internet untuk Segala (IoT) lainnya yang memerlukan penyisipan data dan pembaruan peristiwa tertentu.

  • Mematuhi peraturan privasi data dalam aplikasi di mana pengguna mungkin memilih untuk dilupakan atau mengubah persetujuan tentang bagaimana data mereka dapat digunakan.

  • Menerapkan ubah sistem penangkapan data (CDC) yang memungkinkan Anda untuk menerapkan perubahan pada set data dari waktu ke waktu.

Tabel berikut mencantumkan versi Hudi yang tercakup dalam rilis terbaru dari Amazon EMR seri 6.x, bersama dengan komponen yang diinstal Amazon EMR dengan Hudi.

Untuk versi komponen yang diinstal dengan Hudi dalam rilis ini, lihat Rilis 6.8.0 Versi Komponen.

Informasi versi Hudi untuk emr-6.8.0
Label Rilis Amazon EMR Hudi Versi Versi Versi Versi Versi Komponen Dipasang Dengan Hudi

emr-6.8.0

Hudi 0.11.1-amzn-0

Not available.

catatan

Rilis Amazon EMR 6.8.0 hadir dengan Apache Hudi 0.11.1; namun, klaster Amazon EMR 6.8.0 juga kompatibel dengan open-sourcehudi-spark3.3-bundle_2.12 dari Hudi 0.12.0.

Tabel berikut mencantumkan versi Hudi yang tercakup dalam rilis terbaru dari Amazon EMR seri 5.x, bersama dengan komponen yang diinstal Amazon EMR dengan Hudi.

Untuk versi komponen yang diinstal dengan Hudi dalam rilis ini, lihat Rilis 5.36.0 Versi Komponen.

Informasi versi Hudi untuk emr-5.36.0
Label Rilis Amazon EMR Hudi Versi Versi Versi Versi Versi Komponen Dipasang Dengan Hudi

emr-5.36.0

Hudi 0.10.1-amzn-1

Not available.