Apache HBase - Amazon EMR

Apache HBase

HBase è un database distribuito, non relazionale, open source sviluppato come parte del progetto Hadoop di Apache Software Foundation. HBase viene eseguito nel File system distribuito Hadoop (HDFS) per offrire funzionalità di database non relazionale per l'ecosistema Hadoop. HBase è incluso con Amazon EMR versione 4.6.0 e successive.

HBase funziona perfettamente con Hadoop, condividendone il file system e agendo come ingresso e uscita diretti al framework e motore di esecuzione MapReduce. HBase si integra anche con Apache Hive, abilitando query di tipo SQL su tabelle HBase, esegue l'unione con tabelle basate su Hive e il supporto per Java Database Connectivity (JDBC). Per ulteriori informazioni su HBase, consulta le sezioni relative ad Apache HBase e alla documentazione HBase nel sito Web di Apache. Per un esempio di come utilizzare HBase con Hive, consulta l'articolo pubblicato sul Blog sui Big Data AWS Combine NoSQL and Massively Parallel Analytics Using Apache HBase and Apache Hive on Amazon EMR (Combinazione di NoSQL e analisi dei dati MPP (Massively Parallel Processing) utilizzando Apache HBase e Apache Hive su Amazon EMR).

Con HBase su Amazon EMR puoi anche eseguire il backup dei dati HBase direttamente in Amazon Simple Storage Service (Amazon S3) e il ripristino da un backup creato in precedenza all'avvio di un cluster HBase. Amazon EMR offre opzioni aggiuntive per l'integrazione con Amazon S3 per la persistenza dei dati e il ripristino di emergenza.

  • HBase su Amazon S3: con Amazon EMR versione 5.2.0 e successive, puoi utilizzare HBase su Amazon S3 per archiviare la directory principale e i metadati HBase del cluster direttamente in Amazon S3. In seguito puoi avviare un nuovo cluster, indirizzandolo alla posizione della directory principale in Amazon S3. Il percorso HBase in Amazon S3 può essere utilizzato da un solo cluster alla volta, a eccezione di una replica di lettura al cluster. Per ulteriori informazioni, consulta HBase su Amazon S3 (modalità di archiviazione Amazon S3).

  • Repliche di lettura ad HBase: Amazon EMR versione 5.7.0 e successive con HBase su Amazon S3 supporta la replica di lettura ai cluster. Una replica di lettura al cluster fornisce accesso in sola lettura ai file e ai metadati dello store di un cluster principale per operazioni di sola lettura. Per ulteriori informazioni, consulta Utilizzo della replica di lettura al cluster.

  • Snapshot HBase - In alternativa a HBase su Amazon S3, con EMR versione 4.0 e successive puoi creare snapshot dei dati HBase direttamente in Amazon S3 e, di conseguenza, recuperare dati utilizzando gli snapshot. Per ulteriori informazioni, consulta Utilizzo di snapshot HBase.

Importante

Per il dimensionamento dei cluster HBase di Amazon EMR, non consigliamo di utilizzare il dimensionamento gestito o il dimensionamento con policy personalizzate con i cluster HBase.

La seguente tabella indica la versione di HBase inclusa nell'ultimo rilascio della serie Amazon EMR 6.x insieme ai componenti che Amazon EMR installa con HBase.

Per la versione dei componenti installati con HBase in questo rilascio, consulta la sezione Versioni dei componenti del rilascio 6.14.0.

Informazioni sulla versione di HBase per emr-6.14.0
Etichetta di rilascio di Amazon EMR Versione di HBase Componenti installati con HBase

emr-6.14.0

HBase 2.4.17

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, emr-wal-cli, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, hbase-operator-tools, zookeeper-client, zookeeper-server

Nota

Apache HBase HBCK2 è uno strumento operativo separato per la riparazione di aree HBase e tabelle di sistema. In Amazon EMR versione 6.1.0 e successive, hbase-hbck2.jar è fornito in /usr/lib/hbase-operator-tools/ sul nodo master. Per ulteriori informazioni su come creare e utilizzare lo strumento, vedere HBase HBCK2.

La seguente tabella indica la versione di HBase inclusa nell'ultimo rilascio della serie Amazon EMR 5.x insieme ai componenti che Amazon EMR installa con HBase.

Per la versione dei componenti installati con HBase in questo rilascio, consulta la sezione Versioni dei componenti del rilascio 6.14.0.

Informazioni sulla versione di HBase per emr-5.36.1
Etichetta di rilascio di Amazon EMR Versione di HBase Componenti installati con HBase

emr-5.36.1

HBase 1.4.13

emrfs, emr-ddb, emr-goodies, emr-kinesis, emr-s3-dist-cp, hadoop-client, hadoop-hdfs-datanode, hadoop-hdfs-library, hadoop-hdfs-namenode, hadoop-httpfs-server, hadoop-kms-server, hadoop-mapred, hadoop-yarn-nodemanager, hadoop-yarn-resourcemanager, hadoop-yarn-timeline-server, hbase-hmaster, hbase-client, hbase-region-server, hbase-rest-server, hbase-thrift-server, zookeeper-client, zookeeper-server