Amazon DynamoDB
開発者ガイド (API バージョン 2012-08-10)

Amazon EMR 上の Apache Hive を使用した DynamoDB の処理

Amazon EMR 上で実行するデータウェアハウスアプリケーション、Apache Hive と Amazon DynamoDB を統合します。Hive は DynamoDB テーブルのデータの読み込みと書き込みができ、以下を許可します。

  • SQL のような言語 (HiveQL) を使用してライブ DynamoDB データにクエリを実行します。

  • DynamoDB テーブルから Amazon S3 バケット (またはその逆) にデータをコピーします。

  • DynamoDB テーブルから Hadoop Distributed File System (HDFS) (またはその逆) にデータをコピーします。

  • DynamoDB テーブルで結合操作を実行します。

概要

Amazon EMR は、大量のデータを高いコスト効率で素早くかつ簡単に処理するためのサービスです。Amazon EMR を使用するには、Hadoop オープンソースフレームワークを実行する Amazon EC2 インスタンスのマネージド型クラスターを起動します。Hadoop は、タスクがクラスター内の複数のノードにマップされる MapReduce アルゴリズムを実装する分散アプリケーションです。各ノードは、指定された作業を他のノードと並列に処理します。最後に、出力は単一のノードにまとめられ、最終結果を提供します。

永続的または一時的となるように、Amazon EMR クラスターの起動を選択できます。

  • 永続的なクラスターはシャットダウンするまで実行されます。永続的なクラスターはデータ分析、データウェアハウス、または他のインタラクティブな使用などに最適です。

  • 一時的なクラスターは、ジョブフローが処理されるまでの間実行され、自動的にシャットダウンされます。一時的なクラスターは、スクリプトの実行などの定期的な処理タスクに最適です。

Amazon EMR アーキテクチャーおよび管理の詳細については、Amazon EMR 管理ガイドを参照してください。

Amazon EMR クラスターを起動する場合、Amazon EC2 インスタンスの開始値とタイプを指定します。また、クラスターで実行する他の分散アプリケーション (Hadoop 自体に加えて) も指定します。これらのアプリケーションには Hue、Mahout、Pig、Spark などが含まれます。

Amazon EMR 用アプリケーションの詳細については、Amazon EMR リリースガイドを参照してください。

クラスター構成によっては、次のノードタイプのうちの 1 つ以上を持つことができます。

  • マスターノード – クラスターの管理、コアおよびタスクインスタンスグループへの MapReduce 実行可能ファイルおよび raw データのサブセットのディストリビューションを調整します。また、実行される各タスクのステータスを追跡し、インスタンスグループの状態を監視します。クラスターにマスターノードは 1 つしか存在しません。

  • コアノード – Hadoop Distributed File System (HDFS) を使用して MapReduce タスクを実行し、データを格納します。

  • タスクノード (オプション) – MapReduce タスクを実行します。

このページの内容: