Procesar datos utilizando Amazon EMR con Hadoop Streaming - AWS Data Pipeline

AWS Data Pipeline ya no está disponible para los nuevos clientes. Los clientes existentes de AWS Data Pipeline pueden seguir utilizando el servicio con normalidad. Más información

Procesar datos utilizando Amazon EMR con Hadoop Streaming

Puede utilizar AWS Data Pipeline para administrar clústeres de Amazon EMR. Con AWS Data Pipeline, puede especificar las condiciones previas que se deben cumplir antes de lanzar el clúster (por ejemplo, garantizar que los datos de hoy se hayan cargado en Amazon S3), una programación para ejecutar repetidamente el clúster y la configuración de clúster que se debe utilizar. En el siguiente tutorial se describen los pasos que ha de seguir para lanzar un clúster sencillo.

En este tutorial, creará una canalización para que un clúster sencillo de Amazon EMR ejecute un trabajo de Hadoop Streaming preexistente proporcionado por Amazon EMR y envíe una notificación de Amazon SNS una vez que la tarea se complete correctamente. Para esta tarea, puede utilizar el recurso del clúster de Amazon EMR proporcionado por AWS Data Pipeline. La aplicación de ejemplo se denomina WordCount y también se puede ejecutar manualmente desde la consola de Amazon EMR. Tenga en cuenta que los clústeres generados por AWS Data Pipeline en su nombre se muestran en la consola de Amazon EMR y se facturan a su cuenta de AWS.

Objetos de canalización

La canalización usa los siguientes objetos:

EmrActivity

Define el trabajo que se debe realizar en la canalización (ejecutar un trabajo de Hadoop Streaming preexistente proporcionado por Amazon EMR).

EmrCluster

Recurso que AWS Data Pipeline utiliza para llevar a cabo esta actividad.

Un clúster es un conjunto de instancias Amazon EC2. AWS Data Pipeline inicia el clúster y, a continuación, lo termina una vez finalizada la tarea.

Programación

Fecha de inicio, hora y duración de esta actividad. De forma opcional, puede especificar la fecha y hora de finalización.

SnsAlarm

Envía una notificación de Amazon SNS al tema especificado una vez que la tarea finaliza correctamente.