Akses HBase tabel dengan Hive

HBase dan terintegrasi Apache Hive erat, memungkinkan Anda menjalankan beban kerja pemrosesan paralel secara masif langsung pada data yang disimpan di dalamnya. HBase Untuk menggunakan Hive dengan HBase, Anda biasanya dapat meluncurkannya di cluster yang sama. Namun, Anda dapat meluncurkan Hive dan HBase pada cluster terpisah. Menjalankan HBase dan Hive secara terpisah pada cluster yang berbeda dapat meningkatkan kinerja karena ini memungkinkan setiap aplikasi untuk menggunakan sumber daya cluster lebih efisien.

Prosedur berikut menunjukkan cara terhubung ke HBase pada cluster menggunakan Hive.

catatan

Anda hanya dapat menghubungkan cluster Hive ke satu HBase cluster.

Untuk menghubungkan Hive ke HBase

Buat cluster terpisah dengan Hive dan HBase instal atau buat satu cluster dengan keduanya HBase dan Hive diinstal.
Jika Anda menggunakan cluster terpisah, modifikasi grup keamanan Anda sehingga HBase port Hive terbuka di antara dua node utama ini.
Gunakan SSH untuk terhubung ke node utama untuk cluster dengan Hive diinstal. Untuk informasi selengkapnya, lihat Connect ke node utama menggunakan SSH di Amazon EMR Management Guide.
Luncurkan shell Hive dengan perintah berikut.
```
hive
```
(Opsional) Anda tidak perlu melakukan ini jika HBase dan Hive terletak di cluster yang sama. Hubungkan HBase klien di cluster Hive Anda ke HBase cluster yang berisi data Anda. Dalam contoh berikut, public-DNS-name diganti dengan nama DNS publik dari node utama HBase cluster, misalnya:ec2-50-19-76-67.compute-1.amazonaws.com.
```
set hbase.zookeeper.quorum=public-DNS-name;
				
```
Lanjutkan untuk menjalankan kueri Hive pada HBase data Anda sesuai keinginan atau lihat prosedur selanjutnya.

Untuk mengakses HBase data dari Hive

Setelah koneksi antara Hive dan HBase cluster dibuat (seperti yang ditunjukkan pada prosedur sebelumnya), Anda dapat mengakses data yang disimpan di HBase cluster dengan membuat tabel eksternal di Hive.

Contoh berikut, ketika dijalankan dari prompt Hive pada node utama, membuat tabel eksternal yang mereferensikan data yang disimpan dalam HBase tabel yang disebutinputTable. Anda kemudian dapat referensi inputTable dalam pernyataan Hive untuk query dan memodifikasi data yang disimpan dalam HBase cluster.
```
set hbase.zookeeper.quorum=ec2-107-21-163-157.compute-1.amazonaws.com;

create external table inputTable (key string, value string)
     stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
      with serdeproperties ("hbase.columns.mapping" = ":key,f1:col1")
      tblproperties ("hbase.table.name" = "t1");

select count(key) from inputTable ;
```

Untuk kasus penggunaan yang lebih canggih dan contoh menggabungkan HBase dan Hive, lihat posting AWS Big Data Blog, Combine NoSQL dan massively parallel analytics HBase menggunakan Apache dan Apache Hive di Amazon EMR.

Awas Javascript dinonaktifkan atau tidak tersedia di browser Anda.

Untuk menggunakan Dokumentasi AWS, Javascript harus diaktifkan. Lihat halaman Bantuan browser Anda untuk petunjuk.

Konvensi Dokumen

Menggunakan HBase shell

Menggunakan HBase snapshot