Automatisieren wiederkehrender Cluster mit AWS Data Pipeline - Amazon EMR

Die vorliegende Übersetzung wurde maschinell erstellt. Im Falle eines Konflikts oder eines Widerspruchs zwischen dieser übersetzten Fassung und der englischen Fassung (einschließlich infolge von Verzögerungen bei der Übersetzung) ist die englische Fassung maßgeblich.

Automatisieren wiederkehrender Cluster mit AWS Data Pipeline

AWS Data Pipeline ist ein Dienst, der die Übertragung und Transformation von Daten automatisiert. Sie können ihn verwenden, um Eingabedaten in Amazon S3 zu verlagern und das Starten von Clustern zu planen, die diese Daten verarbeiten. Betrachten wir zum Beispiel den Fall, bei dem ein Webserver Datenverkehrsprotokolle aufzeichnet. Wenn Sie einen wöchentlichen Cluster zur Analyse der Verkehrsdaten ausführen möchten, können Sie ihn AWS Data Pipeline zur Planung dieser Cluster verwenden. AWS Data Pipeline ist ein datengesteuerter Workflow, sodass eine Aufgabe (Starten des Clusters) von einer anderen Aufgabe (Verschieben der Eingabedaten nach Amazon S3) abhängig sein kann. Der Workflow verfügt außerdem über eine robuste Wiederholungsfunktionalität.

Weitere Informationen zu AWS Data Pipeline finden Sie im AWS Data Pipeline Entwicklerhandbuch, insbesondere in den Tutorials zu Amazon EMR: