Akses HBase tabel dengan Hive - Amazon EMR

Terjemahan disediakan oleh mesin penerjemah. Jika konten terjemahan yang diberikan bertentangan dengan versi bahasa Inggris aslinya, utamakan versi bahasa Inggris.

Akses HBase tabel dengan Hive

HBasedan terintegrasi Apache Hive erat, memungkinkan Anda menjalankan beban kerja pemrosesan paralel secara besar-besaran langsung pada data yang disimpan. HBase Untuk menggunakan Hive denganHBase, Anda biasanya dapat meluncurkannya di cluster yang sama. Namun, Anda dapat meluncurkan Hive dan HBase pada cluster terpisah. Menjalankan HBase dan Hive secara terpisah pada cluster yang berbeda dapat meningkatkan kinerja karena ini memungkinkan setiap aplikasi untuk menggunakan sumber daya cluster lebih efisien.

Prosedur berikut menunjukkan cara terhubung ke HBase pada cluster menggunakan Hive.

catatan

Anda hanya dapat menghubungkan cluster Hive ke satu HBase cluster.

Untuk menghubungkan Hive ke HBase
  1. Buat cluster terpisah dengan Hive dan HBase instal atau buat satu cluster dengan keduanya HBase dan Hive diinstal.

  2. Jika Anda menggunakan cluster terpisah, modifikasi grup keamanan Anda sehingga HBase port Hive terbuka di antara dua node utama ini.

  3. Gunakan SSH untuk terhubung ke node utama untuk cluster dengan Hive diinstal. Untuk informasi selengkapnya, lihat Connect ke node utama menggunakan SSH Panduan EMR Manajemen Amazon.

  4. Luncurkan shell Hive dengan perintah berikut.

    hive
  5. (Opsional) Anda tidak perlu melakukan ini jika HBase dan Hive terletak di cluster yang sama. Hubungkan HBase klien di cluster Hive Anda ke HBase cluster yang berisi data Anda. Dalam contoh berikut, public-DNS-name digantikan oleh DNS nama publik dari simpul utama HBase cluster, misalnya:ec2-50-19-76-67.compute-1.amazonaws.com.

    set hbase.zookeeper.quorum=public-DNS-name;
  6. Lanjutkan untuk menjalankan kueri Hive pada HBase data Anda sesuai keinginan atau lihat prosedur selanjutnya.

Untuk mengakses HBase data dari Hive
  • Setelah koneksi antara Hive dan HBase cluster dibuat (seperti yang ditunjukkan pada prosedur sebelumnya), Anda dapat mengakses data yang disimpan di HBase cluster dengan membuat tabel eksternal di Hive.

    Contoh berikut, ketika dijalankan dari prompt Hive pada node utama, membuat tabel eksternal yang mereferensikan data yang disimpan dalam HBase tabel yang disebutinputTable. Anda kemudian dapat referensi inputTable dalam pernyataan Hive untuk query dan memodifikasi data yang disimpan dalam HBase cluster.

    set hbase.zookeeper.quorum=ec2-107-21-163-157.compute-1.amazonaws.com; create external table inputTable (key string, value string) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties ("hbase.columns.mapping" = ":key,f1:col1") tblproperties ("hbase.table.name" = "t1"); select count(key) from inputTable ;

Untuk kasus penggunaan yang lebih canggih dan contoh menggabungkan HBase dan Hive, lihat posting AWS Big Data Blog, Combine No SQL dan massively parallel analytics menggunakan Apache HBase dan Apache Hive di Amazon. EMR