Daten mithilfe von Amazon EMR mit Hadoop Streaming verarbeiten

Sie können es AWS Data Pipeline zur Verwaltung Ihrer Amazon EMR-Cluster verwenden. Mit können AWS Data Pipeline Sie Vorbedingungen angeben, die erfüllt sein müssen, bevor der Cluster gestartet wird (z. B. sicherstellen, dass die heutigen Daten auf Amazon S3 hochgeladen wurden), einen Zeitplan für die wiederholte Ausführung des Clusters und die zu verwendende Cluster-Konfiguration angeben. Das folgende Tutorial führt Sie durch den Start eines einfachen Clusters.

In diesem Tutorial erstellen Sie eine Pipeline für einen einfachen Amazon EMR-Cluster, um einen bereits vorhandenen Hadoop-Streaming-Job auszuführen, der von Amazon EMR bereitgestellt wird, und eine Amazon SNS SNS-Benachrichtigung zu senden, nachdem die Aufgabe erfolgreich abgeschlossen wurde. Für diese Aufgabe verwenden Sie die Amazon EMR-Cluster-Ressource, AWS Data Pipeline die von bereitgestellt wird. Die Beispielanwendung wird aufgerufen WordCount und kann auch manuell von der Amazon EMR-Konsole aus ausgeführt werden. Beachten Sie, dass Cluster, die von in AWS Data Pipeline Ihrem Namen erzeugt wurden, in der Amazon EMR-Konsole angezeigt und Ihrem AWS-Konto in Rechnung gestellt werden.

Pipeline-Objekte

Die Pipeline verwendet die folgenden Objekte:

EmrActivity

Definiert die Arbeit, die in der Pipeline ausgeführt werden soll (einen bereits vorhandenen Hadoop-Streaming-Job ausführen, der von Amazon EMR bereitgestellt wird).

EmrCluster

Die Ressource, AWS Data Pipeline die zur Ausführung dieser Aktivität verwendet wird.

Ein Cluster besteht aus einer Reihe von EC2 Amazon-Instances. AWS Data Pipeline startet den Cluster und beendet ihn dann, nachdem die Aufgabe abgeschlossen ist.

Plan

Startdatum, Uhrzeit und Dauer dieser Aktivität. Sie können optional das Enddatum und die Endzeit angeben.

SnsAlarm

Sendet eine Amazon SNS SNS-Benachrichtigung an das von Ihnen angegebene Thema, nachdem die Aufgabe erfolgreich abgeschlossen wurde.

Inhalt

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Tutorials

Bevor Sie beginnen