AWS Data Pipeline ist für Neukunden nicht mehr verfügbar. Bestehende Kunden von AWS Data Pipeline können den Service weiterhin wie gewohnt nutzen. Weitere Informationen
Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.
Daten mithilfe von Amazon EMR mit Hadoop Streaming verarbeiten
Sie können es verwenden AWS Data Pipeline , um Ihre EMR Amazon-Cluster zu verwalten. Mit können AWS Data Pipeline Sie Vorbedingungen angeben, die erfüllt sein müssen, bevor der Cluster gestartet wird (z. B. sicherstellen, dass die heutigen Daten auf Amazon S3 hochgeladen wurden), einen Zeitplan für die wiederholte Ausführung des Clusters und die zu verwendende Cluster-Konfiguration angeben. Das folgende Tutorial führt Sie durch den Start eines einfachen Clusters.
In diesem Tutorial erstellen Sie eine Pipeline für einen einfachen EMR Amazon-Cluster, um einen bereits vorhandenen Hadoop-Streaming-Job auszuführen, der von Amazon bereitgestellt wird, EMR und eine SNS Amazon-Benachrichtigung zu senden, nachdem die Aufgabe erfolgreich abgeschlossen wurde. Für diese Aufgabe verwenden Sie die EMR Amazon-Cluster-Ressource, AWS Data Pipeline die von bereitgestellt wird. Die Beispielanwendung wird aufgerufen WordCount und kann auch manuell von der EMR Amazon-Konsole aus ausgeführt werden. Beachten Sie, dass Cluster, die von in AWS Data Pipeline Ihrem Namen erzeugt wurden, in der EMR Amazon-Konsole angezeigt und Ihrem AWS Konto in Rechnung gestellt werden.
Pipeline-Objekte
Die Pipeline verwendet die folgenden Objekte:
- EmrActivity
-
Definiert die Arbeit, die in der Pipeline ausgeführt werden soll (führt einen bereits vorhandenen Hadoop-Streaming-Job aus, der von Amazon EMR bereitgestellt wird).
- EmrCluster
-
Die Ressource, AWS Data Pipeline die zur Ausführung dieser Aktivität verwendet wird.
Ein Cluster besteht aus einer Reihe von EC2 Amazon-Instances. AWS Data Pipeline startet den Cluster und beendet ihn dann, nachdem die Aufgabe abgeschlossen ist.
- Plan
-
Startdatum, Uhrzeit und Dauer dieser Aktivität. Sie können optional das Enddatum und die Endzeit angeben.
- SnsAlarm
-
Sendet eine SNS Amazon-Benachrichtigung an das von Ihnen angegebene Thema, nachdem die Aufgabe erfolgreich abgeschlossen wurde.