Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mengaktifkan Hive EMRFS S3 optimized committer
The Hive EMRFS S3 Optimized Committer adalah cara alternatif menggunakan yang EMR Hive menulis file untuk query insert saat menggunakan EMRFS. Komite menghilangkan daftar dan mengganti nama operasi yang dilakukan di Amazon S3 dan meningkatkan kinerja aplikasi. Fitur ini tersedia dimulai dengan EMR 5.34 dan EMR 6.5.
Mengaktifkan committer
Jika Anda ingin mengaktifkan EMR Hive untuk digunakanHiveEMRFSOptimizedCommitter
untuk melakukan data sebagai default untuk semua Hive dikelola dan eksternal tabel, gunakanhive-site
konfigurasi berikut di EMR 6.5.0 atau EMR 5.34.0 cluster.
[ { "classification": "hive-site", "properties": { "hive.blobstore.use.output-committer": "true" } } ]
Jangan mengaktifkan fitur ini ketikahive.exec.parallel
diatur ketrue
.
Keterbatasan:
Batasan dasar berikut berlaku untuk tanda:
-
Mengaktifkan Hive untuk menggabungkan file kecil secara otomatis tidak didukung. Default Hive komit logika akan digunakan bahkan ketika committer dioptimalkan diaktifkan.
-
Hive ACID tabel Hive ACID tidak didukung. Default Hive komit logika akan digunakan bahkan ketika committer dioptimalkan diaktifkan.
-
File penamaan nomenklatur untuk file yang ditulis diubah dari Hive
<task_id>_<attempt_id>_<copy_n>
untuk<task_id>_<attempt_id>_<copy_n>_<query_id>
. Misalnya, sebuah file bernamas3://warehouse/table/partition=1/000000_0
akan diubah menjadis3://warehouse/table/partition=1/000000_0-hadoop_20210714130459_ba7c23ec-5695-4947-9d98-8a40ef759222-1
.query_id
Berikut adalah kombinasi nama pengguna, stempel waktu, dan UUID. -
Ketika partisi kustom berada pada sistem file yang berbeda (HDFS, S3), fitur ini secara otomatis dinonaktifkan. Default Hive komit logika akan digunakan ketika diaktifkan.