Acceda a HBase las tablas con Hive - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Acceda a HBase las tablas con Hive

HBasey Apache Hive están perfectamente integrados, lo que le permite ejecutar cargas de trabajo de procesamiento masivo en paralelo directamente sobre los datos almacenados en. HBase Para usar Hive con ellasHBase, normalmente puedes lanzarlas en el mismo clúster. Sin embargo, puedes lanzar Hive y HBase en clústeres independientes. Ejecutar HBase Hive por separado en distintos clústeres puede mejorar el rendimiento, ya que permite que cada aplicación utilice los recursos del clúster de forma más eficiente.

Los siguientes procedimientos muestran cómo conectarse a HBase un clúster mediante Hive.

nota

Solo puede conectar un clúster de Hive a un único HBase clúster.

Para conectar Hive a HBase
  1. Cree clústeres independientes con Hive e HBase instalado o cree un solo clúster con ambos HBase y Hive instalado.

  2. Si utiliza clústeres independientes, modifique los grupos de seguridad para que HBase los puertos de Hive estén abiertos entre estos dos nodos principales.

  3. SSHÚselo para conectarse al nodo principal del clúster con Hive instalado. Para obtener más información, consulte Conectarse al nodo principal mediante SSH la Amazon EMR Management Guide.

  4. Lance el shell Hive con el siguiente comando.

    hive
  5. (Opcional) No es necesario que lo haga si HBase Hive se encuentra en el mismo clúster. Conecte el HBase cliente de su clúster de Hive al HBase clúster que contiene sus datos. En el siguiente ejemplo, public-DNS-name se sustituye por el DNS nombre público del nodo principal del HBase clúster, por ejemplo:ec2-50-19-76-67.compute-1.amazonaws.com.

    set hbase.zookeeper.quorum=public-DNS-name;
  6. Proceda a ejecutar las consultas de Hive en sus HBase datos según lo desee o consulte el siguiente procedimiento.

Para acceder a HBase los datos de Hive
  • Una vez realizada la conexión entre el Hive y HBase los clústeres (como se muestra en el procedimiento anterior), puede acceder a los datos almacenados en el HBase clúster creando una tabla externa en Hive.

    El siguiente ejemplo, cuando se ejecuta desde la línea de comandos de Hive en el nodo principal, crea una tabla externa que hace referencia a los datos almacenados en una HBase tabla llamada. inputTable A continuación, puede hacer referencia inputTable a las instrucciones de Hive para consultar y modificar los datos almacenados en el HBase clúster.

    set hbase.zookeeper.quorum=ec2-107-21-163-157.compute-1.amazonaws.com; create external table inputTable (key string, value string) stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler' with serdeproperties ("hbase.columns.mapping" = ":key,f1:col1") tblproperties ("hbase.table.name" = "t1"); select count(key) from inputTable ;

Para ver un caso de uso más avanzado y un ejemplo de combinación HBase con Hive, consulte la entrada del blog sobre AWS big data, Combine No SQL y análisis masivo paralelo con Apache HBase y Apache Hive en Amazon. EMR