Introducción a AWS Data Pipeline - AWS Data Pipeline

Introducción a AWS Data Pipeline

AWS Data Pipeline le ayuda a secuenciar, programar, ejecutar y administrar cargas de trabajo de procesamiento de datos recurrentes de forma fiable y rentable. Este servicio simplifica el diseño de actividades de extracción, transformación y carga (ETL) mediante datos estructurados y sin estructurar, tanto local como en la nube, según su lógica empresarial.

Para usar AWS Data Pipeline, cree una definición de canalización que especifique la lógica de negocio para su procesamiento de datos. Una definición de la canalización típica consta de actividades que definen el trabajo que se realizará, y nodos de datos que definen la ubicación y el tipo de datos de entrada y salida y una programación que determina cuándo se realizan las actividades.

En este tutorial, ejecuta un script de comandos de shell que cuenta el número de solicitudes GET en registros del servidor web Apache. Esta canalización se ejecuta cada 15 minutos durante una hora y escribe la salida a Amazon S3 en cada iteración.

Requisitos previos

Antes de comenzar, complete las tareas de Configuración de AWS Data Pipeline.

Objetos de canalización

La canalización usa los siguientes objetos:

ShellCommandActivity

Lee el archivo de registro de entrada y cuenta el número de errores.

S3DataNode (input)

El bucket de S3 que contiene el archivo de registro de entrada.

S3DataNode (salida)

El bucket de S3 para la salida.

Ec2Resource

El recurso informático que AWS Data Pipeline usa para realizar la actividad.

Tenga en cuenta que si tiene una gran cantidad de datos de los archivos de registro, puede configurar su canalización para usar un clúster de EMR a fin de procesar los archivos en lugar de una instancia EC2.

Programación

Define que la actividad se realiza cada 15 minutos durante una hora.

Crear la canalización

La forma más rápida de comenzar a trabajar con AWS Data Pipeline es usar una definición de la canalización denominada plantilla.

Para crear la canalización
  1. Abra la consola de AWS Data Pipeline en https://console.aws.amazon.com/datapipeline/.

  2. En la barra de navegación, seleccione una región. Puede seleccionar cualquier región disponible, independientemente de su ubicación. Muchos recursos de AWS son específicos de cada región, pero AWS Data Pipeline le permite usar recursos que se encuentran en una región diferente a la de la canalización.

  3. La primera pantalla que vea dependerá de si ha creado una canalización en la región actual.

    1. Si no ha creado una canalización en esta región, la consola muestra una pantalla introductoria. Elija Get started now.

    2. Si ya ha creado una canalización en esta región, la consola muestra una página que enumera sus canalizaciones para la región. Elija Create new pipeline (Crear nueva canalización).

  4. En Nombre, escriba el nombre de la canalización.

  5. (Opcional) En Descripción, escriba una descripción para su canalización.

  6. Para Source, seleccione Build using a template y, a continuación, seleccione la siguiente plantilla: Getting Started using ShellCommandActivity.

  7. En la sección Parameters, que se abrió al seleccionar la plantilla, deje S3 input folder y Shell command to run con sus valores predeterminados. Haga clic en el icono de la carpeta junto a S3 output folder, seleccione uno de los buckets o carpetas y, a continuación, haga clic en Select.

  8. En Schedule, deje los valores predeterminados. Al activar la canalización, empieza la ejecución de la canalización y, después, continúa cada 15 minutos durante una hora.

    Si lo prefiere, puede seleccionar Run once on pipeline activation en su lugar.

  9. En Configuración de canalización, deje el registro activado. Elija el icono de carpeta en la ubicación de S3 para los registros, seleccione uno de sus buckets o carpetas y, a continuación, elija Seleccionar.

    Si lo prefiere, puede desactivar el registro en su lugar.

  10. En Seguridad/acceso, deje Roles de IAM en Predeterminado.

  11. Haga clic en Activate (Activar).

    Si lo prefiere, puede elegir Editar en Architect para modificar esta canalización. Por ejemplo, puede añadir condiciones previas.

Monitorizar la canalización en ejecución

Después de activar la canalización, se abrirá la página Execution details, donde puede monitorizar el progreso de la canalización.

Para monitorizar el progreso de la canalización
  1. Haga clic en Update o pulse F5 para actualizar el estado mostrado.

    sugerencia

    Si no hay ninguna ejecución en la lista, asegúrese de que Start (in UTC) y End (in UTC) abarquen el principio y el final programados de la canalización y, a continuación, haga clic en Update.

  2. Cuando el estado de todos los objetos en la canalización es FINISHED, la canalización ha completado correctamente las tareas programadas.

  3. Si la canalización no se completa correctamente, compruebe su configuración para ver si existe algún problema. Para obtener más información sobre cómo solucionar problemas de ejecuciones de instancias de la canalización, consulte Resolución de problemas comunes.

Ver la salida

Abra la consola de Amazon S3 y vaya al bucket. Si ejecutó su canalización cada 15 minutos durante una hora, verá cuatro subcarpetas con marca de tiempo. Cada subcarpeta contiene la salida en un archivo denominado output.txt. Dado que ejecutamos el script en el mismo archivo de entrada cada vez, los archivos de salida son idénticos.

Eliminar la canalización

Para dejar de incurrir en cargos, elimine su canalización. Al eliminar su canalización, se borran la definición de la canalización y todos los objetos asociados.

Para eliminar su canalización
  1. En la página Lista de canalizaciones, seleccione la canalización.

  2. Haga clic en Acciones y, después, Eliminar.

  3. Cuando se le pida confirmación, elija Delete (Eliminar).

Cuando ya no necesite la salida de este tutorial, elimine las carpetas de salida del bucket de Amazon S3.