Wählen Sie Ihre Cookie-Einstellungen aus

Wir verwenden essentielle Cookies und ähnliche Tools, die für die Bereitstellung unserer Website und Services erforderlich sind. Wir verwenden Performance-Cookies, um anonyme Statistiken zu sammeln, damit wir verstehen können, wie Kunden unsere Website nutzen, und Verbesserungen vornehmen können. Essentielle Cookies können nicht deaktiviert werden, aber Sie können auf „Anpassen“ oder „Ablehnen“ klicken, um Performance-Cookies abzulehnen.

Wenn Sie damit einverstanden sind, verwenden AWS und zugelassene Drittanbieter auch Cookies, um nützliche Features der Website bereitzustellen, Ihre Präferenzen zu speichern und relevante Inhalte, einschließlich relevanter Werbung, anzuzeigen. Um alle nicht notwendigen Cookies zu akzeptieren oder abzulehnen, klicken Sie auf „Akzeptieren“ oder „Ablehnen“. Um detailliertere Entscheidungen zu treffen, klicken Sie auf „Anpassen“.

Daten mithilfe von Amazon EMR mit Hadoop Streaming verarbeiten - AWS Data Pipeline

AWS Data Pipeline ist für Neukunden nicht mehr verfügbar. Bestehende Kunden von AWS Data Pipeline können den Service weiterhin wie gewohnt nutzen. Weitere Informationen

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

AWS Data Pipeline ist für Neukunden nicht mehr verfügbar. Bestehende Kunden von AWS Data Pipeline können den Service weiterhin wie gewohnt nutzen. Weitere Informationen

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Daten mithilfe von Amazon EMR mit Hadoop Streaming verarbeiten

Sie können es verwenden AWS Data Pipeline , um Ihre EMR Amazon-Cluster zu verwalten. Mit können AWS Data Pipeline Sie Vorbedingungen angeben, die erfüllt sein müssen, bevor der Cluster gestartet wird (z. B. sicherstellen, dass die heutigen Daten auf Amazon S3 hochgeladen wurden), einen Zeitplan für die wiederholte Ausführung des Clusters und die zu verwendende Cluster-Konfiguration angeben. Das folgende Tutorial führt Sie durch den Start eines einfachen Clusters.

In diesem Tutorial erstellen Sie eine Pipeline für einen einfachen EMR Amazon-Cluster, um einen bereits vorhandenen Hadoop-Streaming-Job auszuführen, der von Amazon bereitgestellt wird, EMR und eine SNS Amazon-Benachrichtigung zu senden, nachdem die Aufgabe erfolgreich abgeschlossen wurde. Für diese Aufgabe verwenden Sie die EMR Amazon-Cluster-Ressource, AWS Data Pipeline die von bereitgestellt wird. Die Beispielanwendung wird aufgerufen WordCount und kann auch manuell von der EMR Amazon-Konsole aus ausgeführt werden. Beachten Sie, dass Cluster, die von in AWS Data Pipeline Ihrem Namen erzeugt wurden, in der EMR Amazon-Konsole angezeigt und Ihrem AWS Konto in Rechnung gestellt werden.

Pipeline-Objekte

Die Pipeline verwendet die folgenden Objekte:

EmrActivity

Definiert die Arbeit, die in der Pipeline ausgeführt werden soll (führt einen bereits vorhandenen Hadoop-Streaming-Job aus, der von Amazon EMR bereitgestellt wird).

EmrCluster

Die Ressource, AWS Data Pipeline die zur Ausführung dieser Aktivität verwendet wird.

Ein Cluster besteht aus einer Reihe von EC2 Amazon-Instances. AWS Data Pipeline startet den Cluster und beendet ihn dann, nachdem die Aufgabe abgeschlossen ist.

Plan

Startdatum, Uhrzeit und Dauer dieser Aktivität. Sie können optional das Enddatum und die Endzeit angeben.

SnsAlarm

Sendet eine SNS Amazon-Benachrichtigung an das von Ihnen angegebene Thema, nachdem die Aufgabe erfolgreich abgeschlossen wurde.

DatenschutzNutzungsbedingungen für die WebsiteCookie-Einstellungen
© 2025, Amazon Web Services, Inc. oder Tochtergesellschaften. Alle Rechte vorbehalten.