Automatisieren Sie wiederkehrende Amazon EMR-Cluster mit AWS Data Pipeline

AWS Data Pipeline ist ein Dienst, der die Übertragung und Transformation von Daten automatisiert. Sie können ihn verwenden, um Eingabedaten in Amazon S3 zu verlagern und das Starten von Clustern zu planen, die diese Daten verarbeiten. Betrachten wir zum Beispiel den Fall, bei dem ein Webserver Datenverkehrsprotokolle aufzeichnet. Wenn Sie einen wöchentlichen Cluster zur Analyse der Verkehrsdaten ausführen möchten, können Sie ihn AWS Data Pipeline zur Planung dieser Cluster verwenden. AWS Data Pipeline ist ein datengesteuerter Workflow, sodass eine Aufgabe (Starten des Clusters) von einer anderen Aufgabe (Verschieben der Eingabedaten nach Amazon S3) abhängig sein kann. Der Workflow verfügt außerdem über eine robuste Wiederholungsfunktionalität.

Weitere Informationen zu AWS Data Pipeline finden Sie im AWS Data Pipeline Entwicklerhandbuch, insbesondere in den Tutorials zu Amazon EMR:

Warnung JavaScript ist in Ihrem Browser nicht verfügbar oder deaktiviert.

Zur Nutzung der AWS-Dokumentation muss JavaScript aktiviert sein. Weitere Informationen finden auf den Hilfe-Seiten Ihres Browsers.

Dokumentkonventionen

Einen Cluster klonen

Amazon EMR-Tutorials