Apache HBase - Amazon EMR

Apache HBase

HBase est une base de données open source, non relationnelle et distribuée, développée dans le cadre du projet Hadoop de l'Apache Software Foundation. HBase s'exécute au-dessus du système de fichiers distribué Hadoop (HDFS) afin de fournir à l'écosystème Hadoop des capacités de base de données non relationnelle. HBase est inclus avec Amazon EMR version 4.6.0 ou ultérieure.

HBase fonctionne de manière fluide avec Hadoop en partageant son système de fichiers et en servant d'entrée et de sortie directe au moteur d'exécution et à l'infrastructure MapReduce. Il intègre également Apache Hive, ce qui permet les requêtes de type SQL sur les tables HBase, se joint aux tables basées sur Hive et permet la prise en charge de la connectivité des bases de données Java (JDBC). Pour en savoir plus sur HBase, consultez Apache HBase et la Documentation HBase sur le site Web d'Apache. Pour obtenir un exemple d'utilisation de HBase avec Hive, consultez le billet du blog AWS sur le Big Data Combine NoSQL and massively parallel analytics using Apache HBase and Apache Hive on Amazon EMR.

Avec HBase sur Amazon EMR, vous pouvez également restaurer vos données HBase directement dans Amazon Simple Storage Service (Amazon S3), et les restaurer à partir d'une sauvegarde précédemment créée lors du lancement d'un cluster HBase. Amazon EMR offre d'autres options d'intégration avec Amazon S3 pour la persistance des données et la reprise après sinistre.

  • HBase sur Amazon S3 – Avec Amazon EMR version 5.2.0 et ultérieure, vous pouvez utiliser HBase sur Amazon S3 pour stocker le répertoire racine et les métadonnées HBase d'un cluster directement sur Amazon S3. Vous pouvez par la suite démarrer un nouveau cluster, en le désignant à l'emplacement du répertoire racine dans Amazon S3. Seulement un cluster à la fois peut utiliser l'emplacement HBase dans Amazon S3, à l'exception d'un cluster réplica en lecture. Pour de plus amples informations, veuillez consulter HBase sur Amazon S3 (mode de stockage Amazon S3).

  • Réplicas en lecture HBase – Les versions 5.7.0 et ultérieures d'Amazon EMR avec HBase sur Amazon S3 prennent en charge les clusters de réplicas en lecture. Un cluster réplica en lecture offre un accès en lecture seule aux fichiers et métadonnées de stockage d'un cluster principal pour des opérations en lecture seule. Pour de plus amples informations, veuillez consulter Utilisation d'un cluster réplica en lecture.

  • Instantanés HBase – En tant qu'alternative à HBase sur Amazon S3, les versions 4.0 et ultérieures d'EMR vous permettent de créer des instantanés de vos données HBase directement dans Amazon S3, puis de récupérer des données à l'aide des instantanés. Pour de plus amples informations, veuillez consulter Utilisation des instantanés HBase.

Important

Pour le dimensionnement des clusters Amazon EMR HBase, nous vous déconseillons d'utiliser le dimensionnement géré ou le dimensionnement avec des politiques personnalisées pour les clusters HBase.

Le tableau suivant répertorie la version de HBase incluse dans la dernière version d'Amazon EMR série 6.x, ainsi que les composants qu'Amazon EMR installe avec HBase.

Pour connaître la version des composants installés avec HBase dans cette version, consultez les versions des composants de la version 6.14.0.

Informations sur la version HBase pour emr-6.14.0
Étiquette de version Amazon EMR Version de HBase Composants installés avec HBase

emr-6.14.0

HBase 2.4.17

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-wal-cli, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, hbase-operator-tools, zookeeper-client, zookeeper-server

Note

Apache HBase HBCK2 est un outil opérationnel distinct pour la réparation des régions et des tables système HBase. Dans Amazon EMR version 6.1.0 et versions ultérieures, le fichier hbase-hbck2.jar est fourni dans /usr/lib/hbase-operator-tools/ sur le nœud principal. Pour plus d'informations sur la création et l'utilisation de cet outil, consultez HBase HBCK2.

Le tableau suivant répertorie la version de HBase incluse dans la dernière version d'Amazon EMR série 5.x, ainsi que les composants qu'Amazon EMR installe avec HBase.

Pour connaître la version des composants installés avec HBase dans cette version, consultez les versions des composants de la version 6.14.0.

Informations sur la version HBase pour emr-5.36.1
Étiquette de version Amazon EMR Version de HBase Composants installés avec HBase

emr-5.36.1

HBase 1.4.13

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, zookeeper-client, zookeeper-server