Accédez aux HBase tables avec Hive

HBase et Apache Hive sont étroitement intégrés, ce qui vous permet d'exécuter des charges de travail de traitement massivement parallèles directement sur les données stockées dans. HBase Pour utiliser Hive avec HBase, vous pouvez généralement les lancer sur le même cluster. Vous pouvez toutefois lancer Hive et HBase sur des clusters distincts. Exécuter HBase et Hive séparément sur différents clusters peut améliorer les performances, car cela permet à chaque application d'utiliser les ressources du cluster de manière plus efficace.

Les procédures suivantes montrent comment se connecter à un cluster HBase à l'aide de Hive.

Note

Vous ne pouvez connecter un cluster Hive qu'à un seul HBase cluster.

Pour connecter Hive à HBase

Créez des clusters séparés avec Hive et HBase installés ou créez un seul cluster avec les deux HBase et Hive installés.
Si vous utilisez des clusters distincts, modifiez vos groupes de sécurité afin que HBase les ports Hive soient ouverts entre ces deux nœuds principaux.
Utilisez SSH pour vous connecter au nœud principal du cluster sur lequel Hive est installé. Pour plus d'informations, consultez Connexion au nœud primaire à l'aide de SSH dans le Guide de gestion d'Amazon EMR.
Lancez le shell Hive à l'aide de la commande suivante.
```
hive
```
(Facultatif) Vous n'avez pas besoin de le faire si Hive HBase et Hive se trouvent sur le même cluster. Connectez le HBase client de votre cluster Hive au HBase cluster qui contient vos données. Dans l'exemple suivant, public-DNS-name est remplacé par le nom DNS public du nœud principal du HBase cluster, par exemple :ec2-50-19-76-67.compute-1.amazonaws.com.
```
set hbase.zookeeper.quorum=public-DNS-name;
				
```
Exécutez les requêtes Hive sur vos HBase données comme vous le souhaitez ou consultez la procédure suivante.

Pour accéder aux HBase données depuis Hive

Une fois la connexion établie entre le Hive et les HBase clusters (comme indiqué dans la procédure précédente), vous pouvez accéder aux données stockées sur le HBase cluster en créant une table externe dans Hive.

L'exemple suivant, lorsqu'il est exécuté à partir de l'invite Hive sur le nœud principal, crée une table externe qui référence les données stockées dans une HBase table appeléeinputTable. Vous pouvez ensuite faire référence inputTable dans les instructions Hive pour interroger et modifier les données stockées dans le HBase cluster.
```
set hbase.zookeeper.quorum=ec2-107-21-163-157.compute-1.amazonaws.com;

create external table inputTable (key string, value string)
     stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
      with serdeproperties ("hbase.columns.mapping" = ":key,f1:col1")
      tblproperties ("hbase.table.name" = "t1");

select count(key) from inputTable ;
```

Pour un cas d'utilisation plus avancé et un exemple de combinaison HBase avec Hive, consultez le billet de blog sur le AWS Big Data intitulé Combine NoSQL et massively parallel analytics using HBase Apache and Apache Hive on Amazon EMR.

Avertissement JavaScript est désactivé ou n'est pas disponible dans votre navigateur.

Pour que vous puissiez utiliser la documentation AWS, Javascript doit être activé. Vous trouverez des instructions sur les pages d'aide de votre navigateur.

Conventions de rédaction

Utilisation de la HBase coque

Utilisation de HBase snapshots