Verarbeiten von DynamoDB-Daten mit Apache Hive in Amazon EMR - Amazon-DynamoDB

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Verarbeiten von DynamoDB-Daten mit Apache Hive in Amazon EMR

Amazon DynamoDB ist in Apache Hive integriert, eine Data-Warehousing-Anwendung, die auf Amazon EMR ausgeführt wird. Hive kann Daten in DynamoDB-Tabellen lesen und schreiben und bietet folgende Möglichkeiten:

  • Abfragen von Live-DynamoDB-Daten mit einer SQL-ähnlichen Sprache (HiveQL).

  • Kopieren von Daten aus einer DynamoDB-Tabelle in einen Amazon-S3-Bucket und umgekehrt.

  • Kopieren von Daten aus einer DynamoDB-Tabelle in Hadoop Distributed File System (HDFS) und umgekehrt.

  • Durchführen von Join-Vorgängen für DynamoDB-Tabellen.

Übersicht

Amazon EMR ist Service, der die schnelle und kosteneffiziente Verarbeitung riesiger Datenmengen erleichtert. Zum Verwenden von Amazon EMR starten Sie einen verwalteten Cluster von Amazon-EC2-Instances mit dem Open-Source-Framework Hadoop. Hadoop ist eine verteilte Anwendung, die den MapReduce Algorithmus implementiert, bei dem eine Aufgabe mehreren Knoten im Cluster zugeordnet wird. Jeder Knoten verarbeitet die ihm zugewiesene Aufgabe parallel mit den anderen Knoten. Die Ausgaben werden letztendlich auf einen einzelnen Knoten reduziert, was zum Endergebnis führt.

Sie können Ihren Amazon-EMR-Cluster so starten, dass er permanent oder vorübergehend ist:

  • Ein permanenter Cluster wird ausgeführt, bis er herunterfahren wird. Permanente Cluster sind ideal für die Datenanalyse, für Data Warehousing und andere interaktive Verwendungen.

  • Ein vorübergehender Cluster wird ausgeführt, um einen Auftragsverlauf zu verarbeiten, und fährt dann automatisch herunter. Vorübergehende Cluster sind für regelmäßige Verarbeitungsaufgaben, wie das Ausführen von Skripts, ideal.

Weitere Informationen zur Amazon-EMR-Architektur und -Verwaltung finden Sie im Management Guide für Amazon EMR.

Wenn Sie einen Amazon-EMR-Cluster starten, geben Sie die anfängliche Anzahl und Art der Amazon-EC2-Instances an. Sie geben außerdem andere verteilte Anwendungen (zusätzlich zu Hadoop) an, die auf dem Cluster ausgeführt werden sollen. Diese Anwendungen umfassen u. a. Hue, Mahout, Pig und Spark.

Weitere Informationen über Anwendungen für Amazon EMR finden Sie in den Amazon-EMR-Versionshinweisen.

Je nach Cluster-Konfiguration liegen ein oder mehrere der folgenden Knotentypen vor:

  • Leader Node — Verwaltet den Cluster und koordiniert die Verteilung der MapReduce ausführbaren Datei und Teilmengen der Rohdaten an die Kern- und Task-Instanzgruppen. Darüber hinaus verfolgt der Leader-Knoten den Status jedes durchgeführten Tasks und überwacht den Zustand der Instance-Gruppen. In jedem Cluster gibt es nur einen Leader-Knoten.

  • Kernknoten — Führt MapReduce Aufgaben aus und speichert Daten mithilfe des Hadoop Distributed File System (HDFS).

  • Task-Knoten (optional) — Führt MapReduce Aufgaben aus.