Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.
Mengonfigurasi metastore eksternal untuk Hive
Secara default, Hive mencatat informasi metastore dalam database MySQL pada sistem file node utama. metastore berisi deskripsi tabel dan data yang mendasari yang dibangun, termasuk nama partisi, tipe data, dan sebagainya. Ketika sebuah cluster berakhir, semua node cluster ditutup, termasuk node utama. Ketika hal ini terjadi, data lokal hilang karena sistem file simpul menggunakan penyimpanan sementara. Jika Anda membutuhkan metastore untuk bertahan, Anda harus membuat metastore eksternal yang ada di luar cluster.
Anda memiliki dua pilihan untuk metastore eksternal:
-
AWSKatalog Data Lem (Amazon EMR hanya rilis 5.8.0 atau yang lebih baru).
Untuk informasi selengkapnya, lihat Menggunakan AWS Katalog Data Glue sebagai metastore untuk Hive.
-
Amazon RDS atau Amazon Aurora.
Untuk informasi selengkapnya, lihat Menggunakan basis data MySQL eksternal atau Amazon Aurora.
catatan
Jika Anda menggunakan Hive 3 dan menemukan terlalu banyak koneksi ke Hive metastore, mengkonfigurasi parameter datanucleus.connectionPool.maxPoolSize
untuk memiliki nilai yang lebih kecil atau meningkatkan jumlah koneksi server database dapat menangani. Peningkatan jumlah koneksi adalah karena cara Hive menghitung jumlah maksimum koneksi JDBC. Untuk menghitung nilai optimal untuk kinerja, lihat Hive Configuration Properties