Mengaktifkan Hive EMRFS S3 optimized committer - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Mengaktifkan Hive EMRFS S3 optimized committer

The Hive EMRFS S3 Optimized Committer adalah cara alternatif menggunakan yang EMR Hive menulis file untuk query insert saat menggunakan EMRFS. Komite menghilangkan daftar dan mengganti nama operasi yang dilakukan di Amazon S3 dan meningkatkan kinerja aplikasi. Fitur ini tersedia dimulai dengan EMR 5.34 dan EMR 6.5.

Mengaktifkan committer

Jika Anda ingin mengaktifkan EMR Hive untuk digunakanHiveEMRFSOptimizedCommitter untuk melakukan data sebagai default untuk semua Hive dikelola dan eksternal tabel, gunakanhive-site konfigurasi berikut di EMR 6.5.0 atau EMR 5.34.0 cluster.

[ { "classification": "hive-site", "properties": { "hive.blobstore.use.output-committer": "true" } } ]
catatan

Jangan mengaktifkan fitur ini ketikahive.exec.parallel diatur ketrue.

Keterbatasan:

Batasan dasar berikut berlaku untuk tanda:

  • Mengaktifkan Hive untuk menggabungkan file kecil secara otomatis tidak didukung. Default Hive komit logika akan digunakan bahkan ketika committer dioptimalkan diaktifkan.

  • Hive ACID tabel Hive ACID tidak didukung. Default Hive komit logika akan digunakan bahkan ketika committer dioptimalkan diaktifkan.

  • File penamaan nomenklatur untuk file yang ditulis diubah dari Hive<task_id>_<attempt_id>_<copy_n> untuk<task_id>_<attempt_id>_<copy_n>_<query_id>. Misalnya, sebuah file bernama

    s3://warehouse/table/partition=1/000000_0akan diubah menjadis3://warehouse/table/partition=1/000000_0-hadoop_20210714130459_ba7c23ec-5695-4947-9d98-8a40ef759222-1. query_idBerikut adalah kombinasi nama pengguna, stempel waktu, dan UUID.

  • Ketika partisi kustom berada pada sistem file yang berbeda (HDFS, S3), fitur ini secara otomatis dinonaktifkan. Default Hive komit logika akan digunakan ketika diaktifkan.