Unterstützte Versionen HBase HBase Voraussetzungen für den Cluster Einen Cluster erstellen mit HBase Konfiguration anpassen HBase Sichern und wiederherstellen HBase Überwachen Sie HBase mit CloudWatch Konfiguriere Ganglia für HBase

HBase Anwendungsspezifikationen für frühere AMI-Versionen von Amazon EMR

Unterstützte Versionen HBase

HBase Version AMI-Version AWS CLI Konfigurationsparameter HBase Versionsdetails

HBase Version	AMI-Version	AWS CLI Konfigurationsparameter	HBase Versionsdetails
0.94.18	3.1.0 und höher	`--ami-version 3.1` `--ami-version 3.2` `--ami-version 3.3` `--applications Name=HBase`	Fehlerbehebungen und Verbesserungen
0.94.7	3.0-3.0.4	`--ami-version 3.0` `--applications Name=HBase`
0.92	2.2 und höher	`--ami-version 2.2 or later` `--applications Name=HBase`

0.94.18

3.1.0 und höher

--ami-version 3.1

--ami-version 3.2

--ami-version 3.3

--applications Name=HBase

Fehlerbehebungen und Verbesserungen

0.94.7

3.0-3.0.4

--ami-version 3.0

--applications Name=HBase

0.92

2.2 und höher

--ami-version 2.2 or later

--applications Name=HBase

HBase Voraussetzungen für den Cluster

Ein Cluster, der mit den Amazon EMR AMI-Versionen 2.x und 3.x erstellt wurde, sollte die folgenden Anforderungen erfüllen für. HBase

Das AWS CLI (optional) — Um mit der HBase Befehlszeile zu interagieren, laden Sie die neueste Version von herunter und installieren Sie sie. AWS CLI Weitere Informationen finden Sie unter Installieren der AWS Command Line Interface im AWS Command Line Interface -Benutzerhandbuch.
Mindestens zwei Instanzen (optional) — Auf dem Master-Knoten des Clusters werden der HBase Master-Server und Zookeeper ausgeführt, und auf Task-Knoten werden die HBase Regionsserver ausgeführt. Um eine optimale Leistung zu erzielen, sollten HBase Cluster auf mindestens zwei EC2 Instances ausgeführt werden. Zu Testzwecken können Sie sie jedoch auch HBase auf einem einzelnen Knoten ausführen.
Cluster mit langer Laufzeit — läuft HBase nur auf Clustern mit langer Laufzeit. Standardmäßig werden von der Befehlszeilenschnittstelle (CLI) und der Amazon-EMR-Konsole lang laufende Cluster erstellt.
Ein EC2 Amazon-Schlüsselpaarsatz (empfohlen) — Um das Secure Shell (SSH) -Netzwerkprotokoll zu verwenden, um eine Verbindung mit dem Master-Knoten herzustellen und HBase Shell-Befehle auszuführen, müssen Sie bei der Erstellung des Clusters ein EC2 Amazon-Schlüsselpaar verwenden.
Die richtigen AMI- und Hadoop-Versionen — HBase Cluster werden derzeit nur auf Hadoop 20.205 oder höher unterstützt.
Ganglia (optional) — Um HBase Leistungsmetriken zu überwachen, installieren Sie Ganglia, wenn Sie den Cluster erstellen.
Ein Amazon S3 S3-Bucket für Protokolle (optional) — Die Protokolle für HBase sind auf dem Master-Knoten verfügbar. Wenn Sie möchten, dass diese Protokolle nach Amazon S3 kopiert werden, geben Sie beim Erstellen des Clusters einen S3-Bucket für den Empfang der Protokolldateien an.

Einen Cluster erstellen mit HBase

In der folgenden Tabelle sind Optionen aufgeführt, die verfügbar sind, wenn Sie die Konsole verwenden, um einen Cluster mit HBase einer Amazon EMR AMI-Release-Version zu erstellen.

Feld	Aktion
Restore from backup (Wiederherstellen mithilfe der Sicherung)	Geben Sie an, ob der HBase Cluster mit in Amazon S3 gespeicherten Daten vorab geladen werden soll.
Backup location (Speicherort der Sicherung)	Geben Sie den URI an, in dem die Sicherung in Amazon S3 gespeichert ist, von der die Wiederherstellung erfolgen soll.
Backup version (Sicherungsversion)	Geben Sie optional den Versionsnamen der zu verwendenden Sicherung unter Backup location (Speicherort der Sicherung) an. Wenn Sie dieses Feld leer lassen, verwendet Amazon EMR das neueste Backup am Backup-Speicherort, um den neuen HBase Cluster zu füllen.
Schedule regular backups (Regelmäßige Sicherungen planen)	Geben Sie an, ob automatisch inkrementelle Sicherungen eingeplant werden sollen. Die erste Sicherung ist ein vollständiges Backup, um eine Baseline für künftige inkrementelle Sicherungen zu erstellen.
Consistent backup (Konsistente Sicherung)	Geben Sie an, ob die Sicherungen konsistent sein sollen. Bei einer konsistenten Sicherung werden die Schreibvorgänge während der anfänglichen Sicherungsstufe, der knotenübergreifenden Synchronisierung, angehalten. Alle auf diese Weise angehaltenen Schreibvorgänge werden in eine Warteschlange gestellt und nach Abschluss der Synchronisierung fortgesetzt.
Backup frequency (Sicherungshäufigkeit)	Die Anzahl days/hours/minutes zwischen den geplanten Backups.
Backup location (Speicherort der Sicherung)	Der Amazon-S3-URI, in dem die Sicherungen gespeichert werden. Der Backup-Speicherort für jeden HBase Cluster sollte unterschiedlich sein, um sicherzustellen, dass die differenziellen Backups korrekt bleiben.
Backup start time (Startzeit der Sicherung)	Geben Sie an, wann die erste Sicherung durchgeführt werden soll. Sie können für dieses Feld `now` angeben. Dann wird die erste Sicherung gestartet, sobald der Cluster ausgeführt wird. Oder geben Sie ein Datum und eine Uhrzeit im ISO-Format ein. Beispielsweise würde 2012-06-15T20:00Z die Startzeit auf 15. Juni 2012 um 20:00 Uhr UTC festlegen.

Mit dem folgenden AWS CLI Beispielbefehl wird ein Cluster mit HBase und anderen Anwendungen gestartet:

Anmerkung

Linux-Zeilenfortsetzungszeichen (\) sind aus Gründen der Lesbarkeit enthalten. Sie können entfernt oder in Linux-Befehlen verwendet werden. Entfernen Sie sie unter Windows oder ersetzen Sie sie durch ein Caret-Zeichen (^).


aws emr create-cluster --name "Test cluster" --ami-version 3.3 \
               --applications Name=Hue Name=Hive Name=Pig Name=HBase \
               --use-default-roles --ec2-attributes KeyName=myKey \
               --instance-type c1.xlarge --instance-count 3 --termination-protected

Nachdem die Verbindung zwischen Hive und HBase Clustern hergestellt wurde (wie im vorherigen Verfahren gezeigt), können Sie auf die im HBase Cluster gespeicherten Daten zugreifen, indem Sie eine externe Tabelle in Hive erstellen.

Wenn das folgende Beispiel über die Hive-Eingabeaufforderung ausgeführt wird, wird eine externe Tabelle erstellt, die auf Daten verweist, die in einer HBase Tabelle mit dem Namen gespeichert sind. inputTable Anschließend können Sie inputTable in Hive-Anweisungen referenzieren, um im Cluster gespeicherte Daten abzufragen und zu ändern. HBase

Anmerkung

Im folgenden Beispiel wird protobuf-java-2.4.0a.jar in AMI 2.3.3 verwendet. Sie sollten das Beispiel jedoch an Ihre Version anpassen. Um zu prüfen, welche Version des Protocol Buffer-JAR Sie haben, führen Sie den folgenden Befehl an der Hive-Eingabeaufforderung aus: ! ls /home/hadoop/lib;.


add jar lib/emr-metrics-1.0.jar ;
               add jar lib/protobuf-java-2.4.0a.jar ;
               
               set hbase.zookeeper.quorum=ec2-107-21-163-157.compute-1.amazonaws.com ;
               
               create external table inputTable (key string, value string)
                    stored by 'org.apache.hadoop.hive.hbase.HBaseStorageHandler'
                     with serdeproperties ("hbase.columns.mapping" = ":key,f1:col1")
                     tblproperties ("hbase.table.name" = "t1");
               
               select count(*) from inputTable ;

Konfiguration anpassen HBase

Obwohl die Standardeinstellungen für die meisten Anwendungen funktionieren sollten, haben Sie die Flexibilität, Ihre HBase Konfigurationseinstellungen zu ändern. Führen Sie hierzu eines der beiden Bootstrap-Aktionsskripts aus:

configure-hbase-daemons— Konfiguriert die Eigenschaften der Master-, Regionalserver- und Zookeeper-Daemons. Zu diesen Eigenschaften gehören die Heap-Größe und Optionen, die beim Start des Daemons an die Java Virtual Machine (JVM) übergeben werden. HBase Sie definieren diese Eigenschaften als Argumente in der Bootstrap-Aktion. Diese Bootstrap-Aktion ändert die Konfigurationsdatei/home/hadoop/conf/hbase-user-env.sh auf dem Cluster. HBase
configure-hbase — Konfiguriert HBase standortspezifische Einstellungen wie den Port, an den der HBase Master binden soll, und die maximale Häufigkeit, mit der der Client-CLI-Client eine Aktion wiederholen soll. Sie können diese one-by-one als Argumente in der Bootstrap-Aktion festlegen oder den Speicherort einer XML-Konfigurationsdatei in Amazon S3 angeben. Diese Bootstrap-Aktion ändert die Konfigurationsdatei/home/hadoop/conf/hbase-site.xml auf dem Cluster. HBase

Anmerkung

Diese Skripts können, wie andere Bootstrap-Aktionen, nur ausgeführt werden, wenn der Cluster erstellt wird. Sie können sie nicht verwenden, um die Konfiguration eines HBase Clusters zu ändern, der gerade läuft.

Wenn Sie die Aktionen configure-hbase oder configure-hbase-daemonsbootstrap ausführen, überschreiben die von Ihnen angegebenen Werte die Standardwerte. Alle Werte, die Sie nicht explizit angeben, erhalten die Standardwerte.

Die Konfiguration HBase mit diesen Bootstrap-Aktionen entspricht der Verwendung von Bootstrap-Aktionen in Amazon EMR zur Konfiguration von Hadoop-Einstellungen und Hadoop-Daemon-Eigenschaften. Der Unterschied besteht darin, dass HBase es keine Speicheroptionen pro Prozess gibt. Stattdessen werden die Speicheroptionen mithilfe des --daemon-opts Arguments festgelegt, wobei daemon das Argument durch den Namen des zu konfigurierenden Daemons ersetzt wird.

Daemons konfigurieren HBase

Amazon EMR bietet eine Bootstrap-Aktions3://region.elasticmapreduce/bootstrap-actions/configure-hbase-daemons, mit der Sie die Konfiguration von HBase Daemons ändern können. Dabei region handelt es sich um die Region, in der Sie Ihren Cluster starten. HBase

Um HBase Daemons mit dem zu konfigurieren AWS CLI, fügen Sie beim Starten des Clusters die configure-hbase-daemons Bootstrap-Aktion hinzu, um einen oder mehrere Daemons zu konfigurieren. HBase Sie können die folgenden Eigenschaften festlegen:

Property (Eigenschaft)	Description (Beschreibung)
`hbase-master-opts`	Optionen, die steuern, wie die JVM den Master-Daemon ausführt. Wenn diese Optionen definiert sind, werden die HBASE_MASTER_OPTS-Standardvariablen damit überschrieben.
`regionserver-opts`	Optionen, die steuern, wie die JVM den Regionsserver-Daemon ausführt. Wenn diese Optionen definiert sind, werden die HBASE_REGIONSERVER_OPTS-Standardvariablen damit überschrieben.
`zookeeper-opts`	Optionen, die steuern, wie die JVM den Zookeeper-Daemon ausführt. Wenn diese Optionen definiert sind, werden die HBASE_ZOOKEEPER_OPTS-Standardvariablen damit überschrieben.

Weitere Informationen zu diesen Optionen finden Sie in der Dokumentation unter hbase-env.sh. HBase

Eine Bootstrap-Aktion zum Konfigurieren von Werten für zookeeper-opts und hbase-master-opts wird im folgenden Beispiel dargestellt.

Anmerkung


aws emr create-cluster --name "Test cluster" --ami-version 3.3 \
--applications Name=Hue Name=Hive Name=Pig Name=HBase \
--use-default-roles --ec2-attributes KeyName=myKey \
--instance-type c1.xlarge --instance-count 3 --termination-protected \
--bootstrap-actions Path=s3://elasticmapreduce/bootstrap-actions/configure-hbase-daemons,\
Args=["--hbase-zookeeper-opts=-Xmx1024m -XX:GCTimeRatio=19","--hbase-master-opts=-Xmx2048m","--hbase-regionserver-opts=-Xmx4096m"]

Konfigurieren Sie HBase die Site-Einstellungen

Amazon EMR bietet eine Bootstrap-Aktions3://elasticmapreduce/bootstrap-actions/configure-hbase, mit der Sie die Konfiguration ändern können. HBase Sie können Konfigurationswerte one-by-one als Argumente in der Bootstrap-Aktion festlegen oder den Speicherort einer XML-Konfigurationsdatei in Amazon S3 angeben. Das Festlegen von Konfigurationswerten one-by-one ist nützlich, wenn Sie nur einige Konfigurationseinstellungen festlegen müssen. Sie mit einer XML-Datei zu definieren, ist hilfreich, wenn Sie viele Änderungen vornehmen müssen oder Ihre Konfigurationseinstellungen für die Wiederverwendung speichern möchten.

Anmerkung

Sie können dem Amazon S3 S3-Bucket-Namen ein Regionspräfix voranstellens3://region.elasticmapreduce/bootstrap-actions/configure-hbase, z. B. wo region sich die Region befindet, in der Sie Ihren HBase Cluster starten.

Diese Bootstrap-Aktion ändert die /home/hadoop/conf/hbase-site.xml Konfigurationsdatei auf dem HBase Cluster. Die Bootstrap-Aktion kann nur ausgeführt werden, wenn der HBase Cluster gestartet wird.

Weitere Informationen zu den HBase Site-Einstellungen, die Sie konfigurieren können, finden Sie in der HBase Dokumentation unter Standardkonfiguration.

Legen Sie die configure-hbase Bootstrap-Aktion fest, wenn Sie den HBase Cluster starten, und geben Sie die hbase-site.xml zu ändernden Werte an.

Um individuelle HBase Site-Einstellungen mit dem zu spezifizieren AWS CLI

Um die hbase.hregion.max.filesize Einstellung zu ändern, geben Sie den folgenden Befehl ein und myKey ersetzen Sie ihn durch den Namen Ihres EC2 Amazon-Schlüsselpaars.

Anmerkung
Linux-Zeilenfortsetzungszeichen (\) sind aus Gründen der Lesbarkeit enthalten. Sie können entfernt oder in Linux-Befehlen verwendet werden. Entfernen Sie sie unter Windows oder ersetzen Sie sie durch ein Caret-Zeichen (^).
```
aws emr create-cluster --name "Test cluster" --ami-version 3.3 \
--applications Name=Hue Name=Hive Name=Pig Name=HBase \
--use-default-roles --ec2-attributes KeyName=myKey \
--instance-type c1.xlarge --instance-count 3 --termination-protected \
--bootstrap-actions Path=s3://elasticmapreduce/bootstrap-actions/configure-hbase,Args=["-s","hbase.hregion.max.filesize=52428800"]
```

Um die HBase Seiteneinstellungen mit einer XML-Datei anzugeben, verwenden Sie AWS CLI

Erstellen Sie eine benutzerdefinierte Version von hbase-site.xml. Die benutzerdefinierte Datei muss eine gültige XML-Datei sein. Um das Risiko von Fehlern zu verringern, beginnen Sie mit der Standardkopie vonhbase-site.xml, die sich auf dem Amazon HBase EMR-Masterknoten unter befindet/home/hadoop/conf/hbase-site.xml, und bearbeiten Sie eine Kopie dieser Datei, anstatt eine Datei von Grund auf neu zu erstellen. Sie können Ihrer neuen Datei einen neuen Namen geben oder den Dateinamen hbase-site.xml belassen.
Laden Sie die benutzerdefinierte Datei hbase-site.xml in einen Amazon-S3-Bucket hoch. Es sollten die Berechtigungen so eingerichtet sein, dass das AWS Konto, das den Cluster startet, auf die Datei zugreifen kann. Wenn das AWS Konto, das den Cluster startet, auch den Amazon S3 S3-Bucket besitzt, hat es Zugriff.
Legen Sie die Bootstrap-Aktion configure-hbase fest, wenn Sie den HBase Cluster starten, und geben Sie den Speicherort Ihrer benutzerdefinierten Datei an. hbase-site.xml Im folgenden Beispiel werden die Werte für die HBase Site-Konfiguration auf die in der Datei angegebenen Werte festgelegt. s3://amzn-s3-demo-bucket/my-hbase-site.xml Geben Sie den folgenden Befehl ein, myKey ersetzen Sie ihn durch den Namen Ihres EC2 key pair und amzn-s3-demo-bucket ersetzen Sie ihn durch den Namen Ihres Amazon S3 S3-Buckets.

Anmerkung
Linux-Zeilenfortsetzungszeichen (\) sind aus Gründen der Lesbarkeit enthalten. Sie können entfernt oder in Linux-Befehlen verwendet werden. Entfernen Sie sie unter Windows oder ersetzen Sie sie durch ein Caret-Zeichen (^).
```
aws emr create-cluster --name "Test cluster" --ami-version 3.3 \
        --applications Name=Hue Name=Hive Name=Pig Name=HBase \
        --use-default-roles --ec2-attributes KeyName=myKey \
        --instance-type c1.xlarge --instance-count 3 --termination-protected \
        --bootstrap-actions Path=s3://elasticmapreduce/bootstrap-actions/configure-hbase,Args=["--site-config-file","s3://amzn-s3-demo-bucket/config.xml"]
```
Wenn Sie mehr als eine Option angeben, um den HBase Vorgang anzupassen, müssen Sie jedem Schlüssel-Wert-Paar einen -s Optionsschalter voranstellen, wie im folgenden Beispiel gezeigt:
```
       --bootstrap-actions s3://elasticmapreduce/bootstrap-actions/configure-hbase,Args=["-s","zookeeper.session.timeout=60000"]
       				
```

Wenn der Proxy eingerichtet und die SSH-Verbindung geöffnet ist, können Sie die HBase Benutzeroberfläche anzeigen, indem Sie ein Browserfenster mit http: //:60010/master-status öffnenmaster-public-dns-name, in dem sich die öffentliche DNS-Adresse des Master-Knotens master-public-dns-name im Cluster befindet. HBase

Sie können die aktuellen HBase Protokolle anzeigen, indem Sie SSH verwenden, um eine Verbindung zum Master-Knoten herzustellen, und zum Verzeichnis navigieren. mnt/var/log/hbase Diese Protokolle sind nicht verfügbar, nachdem der Cluster beendet wurde, es sei denn, Sie aktivieren beim Starten des Clusters die Protokollierung nach Amazon S3.

Sichern und wiederherstellen HBase

Amazon EMR bietet die Möglichkeit, Ihre HBase Daten entweder manuell oder nach einem automatisierten Zeitplan auf Amazon S3 zu sichern. Sie können sowohl vollständige als auch inkrementelle Sicherungen durchführen. Nachdem Sie eine gesicherte Version der HBase Daten erstellt haben, können Sie diese Version in einem Cluster wiederherstellen. HBase Sie können die Wiederherstellung auf einem HBase Cluster durchführen, der gerade ausgeführt wird, oder einen neuen Cluster starten, der bereits mit gesicherten Daten gefüllt ist.

Führt während des Backup-Vorgangs HBase weiterhin Schreibbefehle aus. Dadurch wird zwar sichergestellt, dass Ihr Cluster während der Sicherung verfügbar bleibt, es besteht aber das Risiko von Inkonsistenzen zwischen den Daten, die gesichert werden, und den Schreibvorgängen, die parallel ausgeführt werden. Um die möglicherweise auftretenden Inkonsistenzen zu verstehen, müssen Sie berücksichtigen, dass Schreibvorgänge auf die Knoten im Cluster HBase verteilt werden. Wenn ein Schreibvorgang erfolgt, nachdem ein bestimmter Knoten abgefragt wurde, werden diese Daten nicht in das Sicherungsarchiv aufgenommen. Möglicherweise stellen Sie sogar fest, dass frühere Schreibvorgänge in den HBase Cluster (die an einen Knoten gesendet wurden, der bereits abgefragt wurde) möglicherweise nicht im Backup-Archiv enthalten sind, während spätere Schreibvorgänge (die an einen Knoten gesendet wurden, bevor dieser abgerufen wurde) enthalten sind.

Wenn ein konsistentes Backup erforderlich ist, müssen Sie die Schreibvorgänge HBase während des ersten Teils des Backup-Vorgangs, d. h. der knotenübergreifenden Synchronisation, unterbrechen. Sie tun dies, indem Sie beim Anfordern einer Sicherung den Parameter --consistent angeben. Mit diesem Parameter werden die Schreibvorgänge während dieses Zeitraums in eine Warteschlage gestellt und ausgeführt, sobald die Synchronisierung abgeschlossen ist. Sie können auch regelmäßige Sicherungen einplanen. Dadurch werden Inkonsistenzen, die im Laufe der Zeit entstehen, aufgelöst, da die Daten, die bei einer Sicherung nicht berücksichtigt wurden, im folgenden Vorgang gesichert werden.

Wenn Sie HBase Daten sichern, sollten Sie für jeden Cluster ein anderes Backup-Verzeichnis angeben. Eine einfache Möglichkeit dafür ist die Verwendung der Cluster-Kennung als Bestandteil des für das Sicherungsverzeichnis angegebenen Pfads. Beispiel, s3://amzn-s3-demo-bucket/backups/j-3AEXXXXXX16F2. Dadurch wird sichergestellt, dass alle future inkrementellen Backups auf den richtigen HBase Cluster verweisen.

Wenn Sie bereit sind, alte Sicherungsdateien zu löschen, die nicht mehr benötigt werden, empfehlen wir Ihnen, zunächst eine vollständige Sicherung Ihrer HBase Daten zu erstellen. Auf diese Weise wird sichergestellt, dass alle Daten erhalten bleiben. Außerdem bietet Ihnen dies eine Baseline für zukünftige inkrementelle Sicherungen. Nachdem die vollständige Sicherung abgeschlossen ist, können Sie zum Sicherungsverzeichnis navigieren und die alten Sicherungsdateien manuell löschen.

Der HBase Sicherungsvorgang verwendet S3 DistCp für den Kopiervorgang, der bestimmte Einschränkungen in Bezug auf den Speicherplatz für temporäre Dateien aufweist.

Sicherung und Wiederherstellung HBase mithilfe der Konsole

Die Konsole bietet die Möglichkeit, einen neuen Cluster zu starten und ihn mit Daten aus einem früheren HBase Backup zu füllen. Sie bietet Ihnen auch die Möglichkeit, regelmäßige inkrementelle Backups von HBase Daten zu planen. Über die CLI stehen zusätzliche Sicherungs- und Wiederherstellungsfunktion zur Verfügung, z. B. können Daten auf einem bereits ausgeführten Cluster wiederhergestellt, manuelle Sicherungen durchgeführt und automatisierte vollständige Sicherungen terminiert werden.

Um mithilfe der Konsole einen neuen Cluster mit archivierten HBase Daten zu füllen

Navigieren Sie zur neuen Amazon-EMR-Konsole und wählen Sie in der Seitennavigation die Option Zur alten Konsole wechseln aus. Weitere Informationen darüber, was Sie erwartet, wenn Sie zur alten Konsole wechseln, finden Sie unter Verwenden der alten Konsole.
Wählen Sie Cluster erstellen.
Wählen Sie im Abschnitt Softwarekonfiguration für Zusätzliche Anwendungen die Option Konfigurieren HBaseund hinzufügen aus.
Klicken Sie auf das Dialogfeld Add Application (Anwendung hinzufügen) und aktivieren Sie das Kontrollkästchen Restore From Backup (Wiederherstellen mithilfe der Sicherung).
Geben Sie Backup Backup-Speicherort den Speicherort des Backups an, das in den neuen HBase Cluster geladen werden soll. Dies sollte eine Amazon-S3-URL im Format s3://amzn-s3-demo-bucket/backups/ sein.
Für Backup Version (Sicherungsversion) haben Sie durch Angabe eines Werts die Möglichkeit, den Namen einer zu ladenden Sicherungsversion anzugeben. Wenn Sie keinen Wert für Backupversion (Sicherungsversion) angeben, lädt Amazon EMR die letzte Sicherung in das angegebene Verzeichnis.
Wählen Sie Add (Hinzufügen) und fahren Sie fort, um den Cluster mit den anderen Optionen wie gewünscht zu erstellen.

Um automatische HBase Datensicherungen mithilfe der Konsole zu planen

Wählen Sie im Abschnitt Softwarekonfiguration für Zusätzliche Anwendungen die Option Konfigurieren HBaseund hinzufügen aus.
Wählen Sie Schedule Regular Backups (Regelmäßige Sicherungen planen).
Geben Sie an, ob die Sicherungen konsistent sein sollen. Bei einer konsistenten Sicherung werden die Schreibvorgänge während der anfänglichen Sicherungsstufe, der knotenübergreifenden Synchronisierung, angehalten. Alle auf diese Weise angehaltenen Schreibvorgänge werden in eine Warteschlange gestellt und nach Abschluss der Synchronisierung fortgesetzt.
Legen Sie fest, wie oft Sicherungen durchgeführt werden sollen, indem Sie eine Zahl für Backup Frequency (Sicherungshäufigkeit) eingeben, und wählen Sie Days (Tage), Hours (Stunden) oder Minutes (Minuten) aus. Bei der ersten automatischen Sicherung handelt es sich um eine vollständige Sicherung. Danach speichert Amazon EMR inkrementelle Backups basierend auf dem von Ihnen festgelegten Zeitplan.
Geben Sie den Speicherort in Amazon S3 an, in dem die Sicherungen gespeichert werden sollen. Jeder HBase Cluster sollte an einem separaten Speicherort in Amazon S3 gesichert werden, um sicherzustellen, dass inkrementelle Backups korrekt berechnet werden.
Geben Sie an, wann die erste Sicherung erfolgen soll, indem Sie einen Wert für Backup Start Time (Startzeit der Sicherung) eingeben. Sie können für dieses Feld now angeben. Dann wird die erste Sicherung gestartet, sobald der Cluster ausgeführt wird. Oder geben Sie ein Datum und eine Uhrzeit im ISO-Format ein. Beispielsweise würde 2013-09-26T20:00Z die Startzeit auf 26. September 2013 um 20:00 Uhr UTC festlegen.
Wählen Sie Hinzufügen aus.
Fahren Sie mit der Erstellung des Clusters je nach Bedarf mit den anderen Optionen fort.

Überwachen Sie HBase mit CloudWatch

Amazon EMR meldet drei Messwerte CloudWatch , anhand derer Sie Ihre HBase Backups überwachen können. Diese Messwerte werden in Intervallen von fünf Minuten aktualisiert und kostenlos zur Verfügung gestellt. CloudWatch

Metrik Beschreibung

Metrik	Beschreibung
`HBaseBackupFailed`	Gibt an, ob die letzte Sicherung fehlgeschlagen ist. Sie ist standardmäßig auf 0 gesetzt und wird in 1 geändert, wenn der vorhergehende Sicherungsversuch fehlgeschlagen ist. Diese Metrik wird nur für HBase Cluster gemeldet. Anwendungsfall: HBase Backups überwachen Einheiten: Anzahl
`HBaseMostRecentBackupDuration`	Dauer, bis die vorherige Sicherung abgeschlossen ist. Diese Metrik wird unabhängig davon erstellt, ob die letzte Sicherung erfolgreich war oder fehlgeschlagen ist. Während die Sicherung ausgeführt wird, gibt die Metrik die Anzahl der Minuten seit dem Start der Sicherung zurück. Diese Metrik wird nur für HBase Cluster gemeldet. Anwendungsfall: HBase Backups überwachen Einheiten: Minuten
`HBaseTimeSinceLastSuccessfulBackup`	Die Anzahl der Minuten, die nach dem Start des letzten erfolgreichen HBase Backups auf Ihrem Cluster vergangen sind. Diese Metrik wird nur für HBase Cluster gemeldet. Anwendungsfall: HBase Backups überwachen Einheiten: Minuten

HBaseBackupFailed

Gibt an, ob die letzte Sicherung fehlgeschlagen ist. Sie ist standardmäßig auf 0 gesetzt und wird in 1 geändert, wenn der vorhergehende Sicherungsversuch fehlgeschlagen ist. Diese Metrik wird nur für HBase Cluster gemeldet.

Anwendungsfall: HBase Backups überwachen

Einheiten: Anzahl

HBaseMostRecentBackupDuration

Dauer, bis die vorherige Sicherung abgeschlossen ist. Diese Metrik wird unabhängig davon erstellt, ob die letzte Sicherung erfolgreich war oder fehlgeschlagen ist. Während die Sicherung ausgeführt wird, gibt die Metrik die Anzahl der Minuten seit dem Start der Sicherung zurück. Diese Metrik wird nur für HBase Cluster gemeldet.

Anwendungsfall: HBase Backups überwachen

Einheiten: Minuten

HBaseTimeSinceLastSuccessfulBackup

Die Anzahl der Minuten, die nach dem Start des letzten erfolgreichen HBase Backups auf Ihrem Cluster vergangen sind. Diese Metrik wird nur für HBase Cluster gemeldet.

Anwendungsfall: HBase Backups überwachen

Einheiten: Minuten

Konfiguriere Ganglia für HBase

Sie konfigurieren Ganglia für die HBase Verwendung der configure-hbase-for-gangliaBootstrap-Aktion. Diese Bootstrap-Aktion ist so konfiguriert, dass Metriken HBase in Ganglia veröffentlicht werden.

Sie müssen Ganglia konfigurieren HBase , wenn Sie den Cluster starten. Ganglia Reporting kann nicht zu einem laufenden Cluster hinzugefügt werden.

Ganglia speichert Protokolldateien auch auf dem Server unter /mnt/var/log/ganglia/rrds. Wenn Sie Ihren Cluster so konfiguriert haben, dass Protokolldateien dauerhaft in einem Amazon-S3-Bucket gespeichert werden, werden die Ganglia-Protokolldateien auch dort dauerhaft abgelegt.

Um einen Cluster mit Ganglia for zu starten HBase, verwenden Sie die configure-hbase-for-gangliaBootstrap-Aktion, wie im folgenden Beispiel gezeigt.

Anmerkung


aws emr create-cluster --name "Test cluster" --ami-version 3.3 \
--applications Name=Hue Name=Hive Name=Pig Name=HBase Name=Ganglia \
--use-default-roles --ec2-attributes KeyName=myKey \
--instance-type c1.xlarge --instance-count 3 --termination-protected \
--bootstrap-actions Path=s3://elasticmapreduce/bootstrap-actions/configure-hbase-for-ganglia

Nachdem der Cluster gestartet wurde, für den Ganglia konfiguriert ist, können Sie auf die Ganglia-Grafiken und -Berichte über die Benutzeroberfläche auf dem Master-Knoten zugreifen.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Hive

Pig