Hive JDBC ドライバーの使用 - Amazon EMR

Hive JDBC ドライバーの使用

Microsoft Excel、MicroStrategy、QlikView、Tableau などの人気のビジネスインテリジェンスツールを Amazon EMR で使用して、データを調査しビジュアル化することができます。この種のツールの多くは Java Database Connectivity (JDBC) ドライバーまたは Open Database Connectivity (ODBC) ドライバーを必要とします。Amazon EMR は JDBC 接続と ODBC 接続の両方をサポートします。

以下の例では、SQL Workbench/J を SQL クライアントとして使用して、Amazon EMR の Hive クラスターに接続します。その他のドライバーについては、「Amazon EMR でのビジネスインテリジェンスツールの使用」を参照してください。

SQL Workbench/J をインストールして使用する前に、ドライバーパッケージをダウンロードしてドライバーをインストールします。パッケージに含まれているドライバーは、Amazon EMR リリースバージョン 4.0 以降で利用できる Hive バージョンをサポートしています。詳細なリリースノートおよびドキュメントについては、パッケージに含まれている PDF ドキュメントを参照してください。

SQL Workbench をインストールして設定するには
  1. オペレーティングシステム用の SQL Workbench/J クライアントを http://www.sql-workbench.net/downloads.html からダウンロードします。

  2. SQL Workbench/J をインストールします。詳細については、SQL Workbench/J ユーザーズマニュアルの「Installing and starting SQL Workbench/J」を参照してください。

  3. Linux, Unix, Mac OS X ユーザー: ターミナルセッションで、以下のコマンドを使用して、クラスターのマスターノードへの SSH トンネルを作成します。master-public-dns-name をマスターノードのパブリック DNS 名に置き換え、path-to-key-file を Amazon EC2 プライベートキー (.pem) ファイルの場所とファイル名に置き換えます。

    ssh -o ServerAliveInterval=10 -i path-to-key-file -N -L 10000:localhost:10000 hadoop@master-public-dns-name

    Windows ユーザー: PuTTY セッションで、ソースポート10000送信先master-public-dns-name:10000 としてクラスターのマスターノードへの SSH トンネルを作成します (ローカルポートフォワーディングを使用)。master-public-dns-name をマスターノードのパブリック DNS 名に置き換えます。

  4. SQL Workbench に JDBC ドライバを追加します。

    1. [Select Connection Profile (接続プロファイルの選択)] ダイアログボックスで [Manage Drivers (ドライバーの管理)] をクリックします。

    2. [Create a new entry (新しいエントリの作成)] (空白ページ) アイコンをクリックします。

    3. 名前フィールドに、Hive JDBC と入力します。

    4. [Library] で [Select the JAR file(s)] アイコンをクリックします。

    5. 抽出したドライバーがある場所に移動します。ダウンロードした JDBC ドライバーパッケージバージョンに含まれているドライバーを選択し、[開く] をクリックします。

      例えば、JDBC ドライバーパッケージには以下の JAR が含まれている場合があります。

      hive_metastore.jar hive_service.jar HiveJDBC41.jar libfb303-0.9.0.jar libthrift-0.9.0.jar log4j-1.2.14.jar ql.jar slf4j-api-1.5.11.jar slf4j-log4j12-1.5.11.jar TCLIServiceClient.jar zookeeper-3.4.6.jar
    6. [Please select one driver] (ドライバーを 1 つ選択してください) ダイアログボックスで、com.amazon.hive.jdbc41.HS2Driver を選択して、[OK] を選択します。

  5. [Manage Drivers] (ドライバーの管理) ダイアログボックスに戻ったら、[Classname] (クラス名) フィールドに値が設定されていることを確認し、[OK] を選択します。

  6. [Select Connection Profile] (接続プロファイルの選択) ダイアログボックスに戻ったら、[Driver] (ドライバー) フィールドが [Hive JDBC] に設定されていることを確認し、[URL] フィールドに JDBC 接続文字列 jdbc:hive2://localhost:10000/default を入力します。

  7. [OK] を選択すると接続します。接続が完了すると、接続の詳細が SQL Workbench/J のウィンドウの上部に表示されます。

Hive と JDBC インターフェイスの使用方法の詳細については、Apache Hive のドキュメントの「HiveClient」および「HiveJDBCInterface」を参照してください。