Utilizar el controlador JDBC de Hive - Amazon EMR

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Utilizar el controlador JDBC de Hive

Puede utilizar herramientas de inteligencia empresarial populares como Microsoft Excel, MicroStrategy, QlikView y Tableau con Amazon EMR para explorar y visualizar los datos. Muchas de estas herramientas requieren un controlador de conectividad de bases de datos Java (JDBC) o un controlador de conectividad de bases de datos abiertas (ODBC). Amazon EMR admite tanto la conectividad JDBC como ODBC.

El ejemplo siguiente muestra cómo usar SQL Workbench/J como un cliente SQL para conectarse a un clúster de Hive con Amazon EMR. Para ver otros controladores, consulte Utilizar herramientas de inteligencia empresarial con Amazon EMR.

Antes de instalar y trabajar con SQL Workbench/J, descargue el paquete del controlador e instale el controlador. Los controladores que se incluyen en el paquete admiten las versiones de Hive disponibles en la versión 4.0 y posteriores de Amazon EMR. Para ver las notas de la versión y documentación detallada, consulte la documentación de PDF incluida en el paquete.

Para instalar y configurar SQL Workbench
  1. Descargue el cliente de SQL Workbench/J para su sistema operativo en http://www.sql-workbench.net/downloads.html.

  2. Instale SQL Workbench/J. Para obtener más información, consulte Installing and starting SQL Workbench/J en el manual del usuario de SQL Workbench/J.

  3. Usuarios de Linux, Unix, Mac OS X: en una sesión de terminal, cree un túnel de SSH al nodo principal del clúster utilizando el siguiente comando. Sustituya master-public-dns-name por el nombre de DNS público del nodo maestro y path-to-key-file por la ubicación y el nombre del archivo de clave privada de Amazon EC2 (.pem).

    ssh -o ServerAliveInterval=10 -i path-to-key-file -N -L 10000:localhost:10000 hadoop@master-public-dns-name

    Usuarios de Windows: en una sesión de PuTTY, cree un túnel SSH al nodo maestro de su clúster (mediante el reenvío de puertos locales) con 10000 para Puerto de origen y master-public-dns-name:10000 para Destino. Sustituya master-public-dns-name por el nombre DNS público del nodo principal.

  4. Añadir el controlador JDBC a SQL Workbench.

    1. En el cuadro de diálogo Select Connection Profile (Seleccionar perfil de conexión), haga clic en Manage Drivers (Administrar controladores).

    2. Haga clic en el icono Create a new entry (Crear una entrada nueva) (página en blanco).

    3. En el campo Name (Nombre), escriba Hive JDBC.

    4. En Library (Biblioteca), haga clic en el icono Select the JAR file(s) (Seleccionar los archivos JAR).

    5. Navegue hasta la ubicación que contiene los controladores extraídos. Seleccione los controladores que se incluyen en la versión del paquete de controladores JDBC que ha descargado y haga clic en Abrir.

      Por ejemplo, su paquete de controladores JDBC puede incluir los siguientes JAR.

      hive_metastore.jar hive_service.jar HiveJDBC41.jar libfb303-0.9.0.jar libthrift-0.9.0.jar log4j-1.2.14.jar ql.jar slf4j-api-1.5.11.jar slf4j-log4j12-1.5.11.jar TCLIServiceClient.jar zookeeper-3.4.6.jar
    6. En el cuadro de diálogo Please select one driver (Seleccione un controlador), seleccione com.amazon.hive.jdbc41.HS2Driver, seguido de OK (Aceptar).

  5. Cuando vuelva al cuadro de diálogo Manage Drivers (Administrar controladores), compruebe que el campo Classname (Nombre de clase) esté relleno y seleccione OK (Aceptar).

  6. Cuando vuelva al cuadro de diálogo Select Connection Profile (Seleccionar perfil de conexión), compruebe que el campo Driver (Controlador) esté definido en Hive JDBC (JDBC de Hive) y proporcione la siguiente cadena de conexión de JDBC en el campo URL: jdbc:hive2://localhost:10000/default.

  7. Seleccione OK (Aceptar) para conectarse. Una vez se haya completado la conexión, los detalles de conexión en la parte superior de la ventana de SQL Workbench/J.

Para obtener más información sobre el uso de Hive y la interfaz JDBC, consulte HiveClient y HiveJDBCInterface en la documentación de Apache Hive.