Ejecución de trabajo en recursos existentes mediante Task Runner - AWS Data Pipeline

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Ejecución de trabajo en recursos existentes mediante Task Runner

Puede instalar Task Runner en recursos informáticos que administre como, por ejemplo, una instancia Amazon EC2, o una estación de trabajo o un servidor físicos. Task Runner se puede instalar en cualquier lugar, en cualquier hardware o sistema operativo compatible, siempre que pueda comunicarse con el servicio AWS Data Pipeline web.

Este enfoque puede resultar útil cuando, por ejemplo, desee utilizarlo AWS Data Pipeline para procesar datos almacenados en el firewall de su organización. Al instalar Task Runner en un servidor de la red local, puede acceder a la base de datos local de forma segura y, a continuación, realizar un sondeo AWS Data Pipeline para ver si se ejecuta la siguiente tarea. Cuando AWS Data Pipeline termine de procesar o elimine la canalización, la instancia de Task Runner seguirá ejecutándose en tu recurso computacional hasta que la cierres manualmente. Los registros de Task Runner persisten después de que se haya completado la ejecución de la canalización.

Para utilizar Task Runner en un recurso que administre, primero debe descargar Task Runner y, a continuación, instalarlo en el recurso informático mediante los procedimientos de esta sección.

nota

Solo puede instalar Task Runner en Linux, UNIX o macOS. Task Runner no es compatible con el sistema operativo Windows.

Para usar Task Runner 2.0, la versión mínima de Java necesaria es 1.7.

Para conectar un Task Runner que haya instalado con las actividades de canalización que debe procesar, añada un campo workerGroup al objeto y configure Task Runner para sondear ese valor de grupo de procesos de trabajo. Para ello, transfiera la cadena del grupo de procesos de trabajo en forma de parámetro (por ejemplo, --workerGroup=wg-12345) cuando ejecute el archivo JAR de Task Runner.

{ "id" : "CreateDirectory", "type" : "ShellCommandActivity", "workerGroup" : "wg-12345", "command" : "mkdir new-directory" }

Instalación de Task Runner

En esta sección, se explica cómo instalar y configurar Task Runner y sus requisitos previos. La instalación es un proceso manual sencillo.

Para instalar Task Runner
  1. Task Runner requiere las versiones de Java 1.6 o 1.8. Para determinar si se encuentra instalado Java y la versión que se está ejecutando, utilice el siguiente comando:

    java -version

    Si no tiene Java 1.6 o 1.8 instalado en su equipo, descargue una de estas versiones desde http://www.oracle.com/technetwork/java/index.html. Descargue e instale Java y, a continuación, continúe con el paso siguiente.

  2. TaskRunner-1.0.jarDescárguelo desde https://s3.amazonaws.com/ datapipeline-us-east -1/us-east-1/software/latest/TaskRunner/TaskRunner-1.0.jar y, a continuación, cópielo en una carpeta del recurso informático de destino. En los clústeres de Amazon EMR que ejecuten tareas EmrActivity, instale Task Runner en el nodo maestro del clúster.

  3. Al usar Task Runner para conectarse al servicio AWS Data Pipeline web y procesar los comandos, los usuarios necesitan acceder mediante programación a un rol que tenga permisos para crear o administrar canalizaciones de datos. Para obtener más información, consulte Concesión de acceso mediante programación.

  4. Task Runner se conecta al servicio AWS Data Pipeline web mediante HTTPS. Si utiliza un AWS recurso, asegúrese de que HTTPS esté habilitado en la tabla de enrutamiento y en la ACL de subred adecuadas. Si utiliza un firewall o un proxy, asegúrese de que el puerto 443 esté abierto.

Iniciar Task Runner

En una ventana de comandos nueva establecida en el directorio en el que haya instalado Task Runner, inicie Task Runner, con el siguiente comando.

java -jar TaskRunner-1.0.jar --config ~/credentials.json --workerGroup=myWorkerGroup --region=MyRegion --logUri=s3://mybucket/foldername

La opción --config apunta a su archivo de credenciales.

La opción --workerGroup especifica el nombre del grupo de procesos de trabajo, que debe ser el mismo valor especificado en la canalización para las tareas que va a procesar.

La opción --region especifica la región de servicio desde la que extraer las tareas a ejecutar.

La opción --logUri se utiliza para enviar los registros comprimidos a una ubicación en Amazon S3.

Cuando Task Runner está activo, imprime la ruta donde se escriben los archivos de registro en la ventana de terminal. A continuación, se muestra un ejemplo.

Logging to /Computer_Name/.../output/logs

Task Runner se debe ejecutar desconectada del shell de inicio de sesión. Si utiliza un terminal de aplicación para conectarse al equipo, puede que tenga que utilizar una utilidad como nohup o screen para evitar que la aplicación Task Runner se cierre al cerrar la sesión. Para obtener más información acerca de las opciones de línea de comandos, consulte Opciones de configuración de Task Runner.

Verificación del registro de Task Runner

La forma más sencilla de verificar si Task Runner está en funcionamiento es comprobar si está escribiendo archivos de registro. Task Runner escribe archivos de registro cada hora en el directorio, output/logs, bajo el directorio donde está instalado Task Runner. El nombre del archivo es Task Runner.log.YYYY-MM-DD-HH, donde HH va de 00 a 23, en UDT. Para ahorrar espacio de almacenamiento, los archivos de registro de más de ocho horas de antigüedad se comprimen con GZip.