Verarbeiten von DynamoDB-Daten mit Apache Hive in Amazon EMR

Amazon DynamoDB ist in Apache Hive integriert, eine Data-Warehousing-Anwendung, die auf Amazon EMR ausgeführt wird. Hive kann Daten in DynamoDB-Tabellen lesen und schreiben und bietet folgende Möglichkeiten:

Abfragen von Live-DynamoDB-Daten mit einer SQL-ähnlichen Sprache (HiveQL).
Kopieren von Daten aus einer DynamoDB-Tabelle in einen Amazon-S3-Bucket und umgekehrt.
Kopieren von Daten aus einer DynamoDB-Tabelle in Hadoop Distributed File System (HDFS) und umgekehrt.
Durchführen von Join-Vorgängen für DynamoDB-Tabellen.

Themen

Übersicht

Amazon EMR ist Service, der die schnelle und kosteneffiziente Verarbeitung riesiger Datenmengen erleichtert. Um Amazon EMR zu verwenden, starten Sie einen verwalteten Cluster von EC2 Amazon-Instances, auf denen das Hadoop-Open-Source-Framework ausgeführt wird. Hadoop ist eine verteilte Anwendung, die den MapReduce Algorithmus implementiert, bei dem eine Aufgabe mehreren Knoten im Cluster zugeordnet wird. Jeder Knoten verarbeitet die ihm zugewiesene Aufgabe parallel mit den anderen Knoten. Die Ausgaben werden letztendlich auf einen einzelnen Knoten reduziert, was zum Endergebnis führt.

Sie können Ihren Amazon-EMR-Cluster so starten, dass er permanent oder vorübergehend ist:

Ein permanenter Cluster wird ausgeführt, bis er herunterfahren wird. Permanente Cluster sind ideal für die Datenanalyse, für Data Warehousing und andere interaktive Verwendungen.
Ein vorübergehender Cluster wird ausgeführt, um einen Auftragsverlauf zu verarbeiten, und fährt dann automatisch herunter. Vorübergehende Cluster sind für regelmäßige Verarbeitungsaufgaben, wie das Ausführen von Skripts, ideal.

Weitere Informationen zur Amazon-EMR-Architektur und -Verwaltung finden Sie im Management Guide für Amazon EMR.

Wenn Sie einen Amazon EMR-Cluster starten, geben Sie die anfängliche Anzahl und den Typ der EC2 Amazon-Instances an. Sie geben außerdem andere verteilte Anwendungen (zusätzlich zu Hadoop) an, die auf dem Cluster ausgeführt werden sollen. Diese Anwendungen umfassen u. a. Hue, Mahout, Pig und Spark.

Weitere Informationen über Anwendungen für Amazon EMR finden Sie in den Amazon-EMR-Versionshinweisen.

Je nach Cluster-Konfiguration liegen ein oder mehrere der folgenden Knotentypen vor:

Leader Node — Verwaltet den Cluster und koordiniert die Verteilung der MapReduce ausführbaren Datei und Teilmengen der Rohdaten an die Kern- und Task-Instance-Gruppen. Darüber hinaus verfolgt der Leader-Knoten den Status jedes durchgeführten Tasks und überwacht den Zustand der Instance-Gruppen. In jedem Cluster gibt es nur einen Leader-Knoten.
Kernknoten — Führt MapReduce Aufgaben aus und speichert Daten mithilfe des Hadoop Distributed File System (HDFS).
Task-Knoten (optional) — Führt MapReduce Aufgaben aus.

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Laden von Daten aus DynamoDB in Amazon Redshift mit COPY

Tutorial: Arbeiten mit Amazon DynamoDB und Apache Hive