Apache HBase - Amazon EMR

Apache HBase

HBase は、Apache Software Foundation の Hadoop プロジェクトの一部として開発されたオープンソースの、非リレーショナルな、分散型データベースです。HBase は、Hadoop Distributed File System (HDFS) 上で実行され、Hadoop エコシステムの非リレーショナルデータベース機能を提供します。HBase は、Amazon EMR リリースバージョン 4.6.0 以降に含まれています。

HBase は、Hadoop のファイルシステムを共有して、MapReduce フレームワークおよび実行エンジンに対する直接入力および出力として機能することで、Hadoop とシームレスに連携します。また、HBase テーブルに対する SQL のようなクエリ、Hive ベースのテーブルとの結合、および Java Database Connectivity(JDBC)を有効にすることで、Apache Hive とも統合されます。HBase の詳細については、Apache ウェブサイトで Apache HBase および HBase ドキュメントを参照してください。Hive で HBase を使用する方法の例については、「Combine NoSQL and massively parallel analytics using Apache HBase and Apache Hive on Amazon EMR」という AWS ビッグデータブログの投稿を参照してください。

Amazon EMR の HBase では、HBase データを Amazon Simple Storage Service (Amazon S3) に直接バックアップできます。また、HBase クラスターの起動時に以前作成したバックアップから復元できます。Amazon EMR には、データ保持と災害対策の目的で Amazon S3 と統合する追加オプションがあります。

  • Amazon S3 の HBase - Amazon EMR バージョン 5.2.0 以降では、Amazon S3 で HBase を使用して、クラスターの HBase ルートディレクトリとメタデータを直接 Amazon S3 に保存できます。その後に起動した新しいクラスターでは、Amazon S3 のルートディレクトリの場所を参照できます。一度に 1 つのクラスターのみが Amazon S3 の HBase の場所を使用できます (リードレプリカクラスターを除く)。詳細については、「Amazon S3 の HBase (Amazon S3 ストレージモード)」を参照してください。

  • HBase リードレプリカ – Amazon S3 の HBase で使用する Amazon EMR バージョン 5.7.0 以降では、リードレプリカクラスターがサポートされます。リードレプリカクラスターは、プライマリクラスターのストアファイルおよびメタデータの読み取り専用オペレーションに対して読み取り専用アクセスを提供します。詳細については、「リードレプリカクラスターの使用」を参照してください。

  • HBase スナップショット – Amazon S3 の HBase の代わりに、EMR バージョン 4.0 以降では HBase データのスナップショットを直接 Amazon S3 に作成し、このスナップショットを使用してデータを復元できます。詳細については、「HBase のスナップショットを使用する」を参照してください。

重要

Amazon EMR HBase クラスタースケーリングでは、マネージドスケーリングHBase クラスターでのカスタムポリシーによるスケーリングの使用はお勧めしません。

次の表は、Amazon EMR 6.x シリーズの最新リリースに含まれている HBase のバージョンと、Amazon EMR で HBase と共にインストールされるコンポーネントを示しています。

このリリースで HBase と共にインストールされるコンポーネントのバージョンについては、「Release 6.14.0 Component Versions」を参照してください。

emr-6.14.0 の HBase バージョン情報
Amazon EMR リリースラベル HBase バージョン HBase でインストールされるコンポーネント

emr-6.14.0

HBase 2.4.17

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-wal-cli, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, hbase-operator-tools, zookeeper-client, zookeeper-server

注記

Apache HBase HBCK2 は、HBase のリージョンとシステムテーブルを修復するための別個の運用ツールです。Amazon EMR バージョン 6.1.0 以降では、hbase-hbck2.jar はマスターノードの /usr/lib/hbase-operator-tools/ で提供されています。このツールのビルドと使用の詳しい方法については、「HBase HBCK2」を参照してください。

次の表は、Amazon EMR 5.x シリーズの最新リリースに含まれている HBase のバージョンと、Amazon EMR で HBase と共にインストールされるコンポーネントを示しています。

このリリースで HBase と共にインストールされるコンポーネントのバージョンについては、「Release 6.14.0 Component Versions」を参照してください。

emr-5.36.1 の HBase バージョン情報
Amazon EMR リリースラベル HBase バージョン HBase でインストールされるコンポーネント

emr-5.36.1

HBase 1.4.13

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, zookeeper-client, zookeeper-server