Utilizzo del driver JDBC Hive - Amazon EMR

Le traduzioni sono generate tramite traduzione automatica. In caso di conflitto tra il contenuto di una traduzione e la versione originale in Inglese, quest'ultima prevarrà.

Utilizzo del driver JDBC Hive

Puoi utilizzare gli strumenti di Business Intelligence più diffusi, quali Microsoft Excel, MicroStrategy, QlikView e Tableau con Amazon EMR per esplorare e visualizzare i dati. Molti di questi strumenti richiedono un driver Java Database Connectivity (JDBC) o un driver Open Database Connectivity (ODBC). L'algoritmo Amazon EMR supporta sia la connettività della JDBC che della ODBC.

L'esempio seguente mostra come utilizzare SQL Workbench/J come client SQL per connettersi a un cluster Hive in Amazon EMR. Per ulteriori driver, consulta Utilizzo degli strumenti di Business Intelligence con Amazon EMR.

Prima di installare e lavorare con SQL Workbench/J, scaricare il pacchetto e installare il driver. I driver inclusi nel pacchetto supportano le versioni Hive disponibili in Amazon EMR versioni di rilascio 4.0 e successive. Per informazioni dettagliate sulle note di rilascio e sulla documentazione, consulta la documentazione PDF inclusa nel pacchetto.

Per installare e configurare SQL Workbench
  1. Scaricare il client SQL Workbench/J per il sistema operativo da http://www.sql-workbench.net/downloads.html.

  2. Installare SQL Workbench/J. Per ulteriori informazioni, consulta la pagina relativa all'installazione e all'avvio di SQL Workbench/J nella guida per l'utente di SQL Workbench/J.

  3. Utenti Linux, Unix, Mac OS X: in una sessione terminale, creare un tunnel SSH per il nodo master del cluster usando il seguente comando. Sostituisci master-public-dns-name con il nome DNS pubblico del nodo master e path-to-key-file con il percorso e il nome del file della chiave privata Amazon EC2 (.pem).

    ssh -o ServerAliveInterval=10 -i path-to-key-file -N -L 10000:localhost:10000 hadoop@master-public-dns-name

    Utenti di Windows: in una sessione PuTTY è necessario creare un tunnel SSH per il nodo master del cluster (tramite inoltro porta locale) con 10000 per Source port (Porta di origine) e master-public-dns-name:10000 per Destination (Destinazione). Sostituire master-public-dns-name con il nome DNS pubblico del nodo master.

  4. Aggiungere il driver JDBC a SQL Workbench.

    1. Nella finestra di dialogo Select Connection Profile (Seleziona profilo di connessione), fare clic su Manage Drivers (Gestisci driver).

    2. Fare clic sull'icona Create a new entry (Crea nuova voce) (pagina bianca).

    3. Nel campo Nome digitare Hive JDBC.

    4. Per Library (Libreria), fare clic sull'icona Select the JAR file(s) (Seleziona file JAR).

    5. Accedere alla posizione contenente i driver estratti. Selezionare i driver inclusi nella versione del pacchetto di driver JDBC scaricata e fare clic su Open (Apri).

      Ad esempio, il pacchetto di driver JDBC potrebbe includere i seguenti JAR.

      hive_metastore.jar hive_service.jar HiveJDBC41.jar libfb303-0.9.0.jar libthrift-0.9.0.jar log4j-1.2.14.jar ql.jar slf4j-api-1.5.11.jar slf4j-log4j12-1.5.11.jar TCLIServiceClient.jar zookeeper-3.4.6.jar
    6. Nella finestra di dialogo Please select one driver (Selezionare un driver), selezionare com.amazon.hive.jdbc41.HS2Driver, OK.

  5. Quando si torna alla finestra di dialogo Manage Drivers (Gestisci driver), verificare che il campo Classname sia popolato e selezionare OK.

  6. Quando si ritorna alla finestra di dialogo Select Connection Profile (Seleziona profilo di connessione), verificare che il campo Driver sia impostato su Hive JDBC (JDBC Hive) e fornire la seguente stringa di connessione nel campo URL: jdbc:hive2://localhost:10000/default.

  7. Selezionare OK per connettersi. Una volta stabilita la connessione, i dettagli di connessione appaiono nella parte superiore della finestra Workbench SQL/J.

Per ulteriori informazioni sull'utilizzo di Hive e l'interfaccia JDBC, consulta HiveClient e HiveJDBCInterface nella documentazione di Apache Hive.