Mengaktifkan komitmen yang dioptimalkan Hive EMRFS S3 - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengaktifkan komitmen yang dioptimalkan Hive EMRFS S3

Hive EMRFS S3 Optimized Committer adalah cara alternatif yang menggunakan EMR Hive untuk menulis file untuk menyisipkan kueri saat menggunakan EMRFS. Committer menghilangkan daftar dan mengganti nama operasi yang dilakukan di Amazon S3 dan meningkatkan kinerja aplikasi. Fitur ini tersedia dimulai dengan EMR 5.34 dan EMR 6.5.

Mengaktifkan committer

Jika Anda ingin mengaktifkan EMR Hive untuk digunakan untuk melakukan data sebagai default HiveEMRFSOptimizedCommitter untuk semua tabel terkelola dan eksternal Hive, gunakan konfigurasi berikut hive-site di EMR 6.5.0 atau EMR 5.34.0 cluster.

[ { "classification": "hive-site", "properties": { "hive.blobstore.use.output-committer": "true" } } ]
catatan

Jangan aktifkan fitur ini saat hive.exec.parallel disetel ketrue.

Batasan

Batasan dasar berikut berlaku untuk tanda:

  • Mengaktifkan Hive untuk menggabungkan file kecil secara otomatis tidak didukung. Logika komit Hive default akan digunakan bahkan ketika committer yang dioptimalkan diaktifkan.

  • Tabel HIVE ACID tidak didukung. Logika komit Hive default akan digunakan bahkan ketika committer yang dioptimalkan diaktifkan.

  • Nomenklatur penamaan file untuk file yang ditulis diubah dari Hive menjadi. <task_id>_<attempt_id>_<copy_n> <task_id>_<attempt_id>_<copy_n>_<query_id> Misalnya, sebuah file bernama

    s3://warehouse/table/partition=1/000000_0akan diubah menjadis3://warehouse/table/partition=1/000000_0-hadoop_20210714130459_ba7c23ec-5695-4947-9d98-8a40ef759222-1. query_idBerikut adalah kombinasi dari nama pengguna, cap waktu, dan UUID.

  • Ketika partisi khusus berada di sistem file yang berbeda (HDFS, S3), fitur ini dinonaktifkan secara otomatis. Logika komit Hive default akan digunakan saat diaktifkan.