Acceda a HBase las tablas con Hive

HBase y Apache Hive están perfectamente integrados, lo que le permite ejecutar cargas de trabajo de procesamiento masivo en paralelo directamente sobre los datos almacenados en. HBase Para usar Hive con ellas HBase, normalmente puedes lanzarlas en el mismo clúster. Sin embargo, puedes lanzar Hive y HBase en clústeres independientes. Ejecutar HBase Hive por separado en distintos clústeres puede mejorar el rendimiento, ya que permite que cada aplicación utilice los recursos del clúster de forma más eficiente.

Los siguientes procedimientos muestran cómo conectarse a HBase un clúster mediante Hive.

nota

Solo puede conectar un clúster de Hive a un único HBase clúster.

Para conectar Hive a HBase

Cree clústeres independientes con Hive e HBase instalado o cree un solo clúster con ambos HBase y Hive instalado.
Si utiliza clústeres independientes, modifique los grupos de seguridad para que HBase los puertos de Hive estén abiertos entre estos dos nodos principales.
Utilice SSH para conectar al nodo principal para el clúster con Hive instalado. Para obtener más información, consulte Conectarse al nodo principal mediante SSH en la Guía de administración de Amazon EMR.
Lance el shell Hive con el siguiente comando.
```
hive
```
(Opcional) No es necesario que lo haga si HBase Hive se encuentra en el mismo clúster. Conecte el HBase cliente de su clúster de Hive al HBase clúster que contiene sus datos. En el siguiente ejemplo, public-DNS-name se reemplaza por el nombre DNS público del nodo principal del HBase clúster, por ejemplo:ec2-50-19-76-67.compute-1.amazonaws.com.
```
set hbase.zookeeper.quorum=public-DNS-name;
				
```
Proceda a ejecutar las consultas de Hive en sus HBase datos según lo desee o consulte el siguiente procedimiento.

Para acceder a HBase los datos de Hive

Una vez realizada la conexión entre el Hive y HBase los clústeres (como se muestra en el procedimiento anterior), puede acceder a los datos almacenados en el HBase clúster creando una tabla externa en Hive.

El siguiente ejemplo, cuando se ejecuta desde la línea de comandos de Hive en el nodo principal, crea una tabla externa que hace referencia a los datos almacenados en una HBase tabla llamada. inputTable A continuación, puede hacer referencia inputTable a las instrucciones de Hive para consultar y modificar los datos almacenados en el HBase clúster.
```
set hbase.zookeeper.quorum=ec2-107-21-163-157.compute-1.amazonaws.com;

create external table inputTable (key string, value string)
     stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
      with serdeproperties ("hbase.columns.mapping" = ":key,f1:col1")
      tblproperties ("hbase.table.name" = "t1");

select count(key) from inputTable ;
```

Para ver un caso de uso más avanzado y un ejemplo de combinación HBase y Hive, consulte la entrada del blog sobre AWS big data, Combine NoSQL y massively parallel analytics mediante HBase Apache y Apache Hive en Amazon EMR.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Uso del shell HBase

Uso de instantáneas HBase