Utilisation du pilote Hive JDBC - Amazon EMR

Les traductions sont fournies par des outils de traduction automatique. En cas de conflit entre le contenu d'une traduction et celui de la version originale en anglais, la version anglaise prévaudra.

Utilisation du pilote Hive JDBC

Vous pouvez utiliser des outils populaires d'aide à la décision, comme Microsoft Excel, MicroStrategy, QlikView et Tableau, avec Amazon EMR pour explorer et visualiser vos données. Un grand nombre de ces outils ont besoin d'un pilote JDBC (Java DataBase Connectivity) ou ODBC (Open DataBase Connectivity). Amazon EMR prend en charge la connectivité JDBC et ODBC.

L'exemple ci-dessous explique comment utiliser SQL Workbench/J en tant que client SQL pour vous connecter à un cluster Hive dans Amazon EMR. Pour obtenir des pilotes supplémentaires, consultez Utilisation des outils d'aide à la décision avec Amazon EMR.

Avant d'installer et d'utiliser SQL Workbench/J, téléchargez le package du pilote et installez ce dernier. Les pilotes inclus dans le package prennent en charge les versions Hive disponibles dans Amazon EMR versions 4.0 et versions ultérieures. Pour obtenir des notes de mise à jour et une documentation détaillées, consultez la documentation PDF incluse dans le package.

Pour installer et configurer SQL Workbench
  1. Téléchargez le client SQL Workbench/J pour votre système d'exploitation à l'adresse http://www.sql-workbench.net/downloads.html.

  2. Installez SQL Workbench/J. Pour plus d'informations, consultez Installing and starting SQL Workbench/J dans le manuel de l'utilisateur SQL Workbench/J.

  3. Utilisateurs Linux, Unix et Mac OS X : dans une session de terminal, créez un tunnel SSH vers le nœud principal de votre cluster à l'aide de la commande suivante. Remplacez master-public-dns-name par le nom DNS public du nœud principal et path-to-key-file par l'emplacement et le nom de votre fichier de clé privée Amazon EC2 (.pem).

    ssh -o ServerAliveInterval=10 -i path-to-key-file -N -L 10000:localhost:10000 hadoop@master-public-dns-name

    Utilisateurs Windows : Dans une session PuTTY, créez un tunnel SSH pour le nœud principal de votre cluster (à l'aide du réacheminement de port local) avec 10000 pour Port source et master-public-dns-name:10000 pour Destination. Remplacez master-public-dns-name par le nom DNS public du nœud maître.

  4. Ajoutez le pilote JDBC à SQL Workbench.

    1. Dans la boîte de dialogue Select Connection Profile (Sélectionner le profil de connexion), cliquez sur Manage Drivers (Gérer les pilotes).

    2. Cliquez sur l'icône Create a new entry (Créer une nouvelle entrée) (page blanche).

    3. Dans le champ Name (Nom), saisissez Hive JDBC.

    4. Pour Library (Bibliothèque), cliquez sur l'icône Select the JAR file(s) (Sélectionner le(s) fichier(s) JAR).

    5. Accédez à l'emplacement contenant les pilotes extraits. Sélectionnez les pilotes inclus dans la version du package de pilotes JDBC que vous avez téléchargée, puis cliquez sur Ouvrir.

      Par exemple, votre package de pilote JDBC peut inclure les fichiers JAR suivants.

      hive_metastore.jar hive_service.jar HiveJDBC41.jar libfb303-0.9.0.jar libthrift-0.9.0.jar log4j-1.2.14.jar ql.jar slf4j-api-1.5.11.jar slf4j-log4j12-1.5.11.jar TCLIServiceClient.jar zookeeper-3.4.6.jar
    6. Dans la boîte de dialogue Please select one driver (Veuillez sélectionner un pilote), sélectionnez com.amazon.hive.jdbc41.HS2Driver, OK.

  5. Lorsque vous revenez à la boîte de dialogue Manage Drivers (Gérer les pilotes) vérifiez que le champ Classname (Nom de classe) est renseigné et cliquez sur OK.

  6. Lorsque vous revenez à la boîte de dialogue Select Connection Profile (Sélectionner le profil de connexion), vérifiez que le champ Driver (Pilote) est défini sur Hive JDBC et fournissez la chaîne de connexion JDBC suivante dans le champ URL : jdbc:hive2://localhost:10000/default.

  7. Sélectionnez OK pour vous connecter. Une fois la connexion établie, les détails de connexion apparaissent en haut de la fenêtre SQL Workbench/J.

Pour plus d'informations sur l'utilisation de Hive et de l'interface JDBC, consultez HiveClient et HiveJDBCInterface dans la documentation Apache Hive.