HiveActivity - AWS Data Pipeline

AWS Data Pipeline ya no está disponible para los nuevos clientes. Los clientes existentes de AWS Data Pipeline pueden seguir utilizando el servicio con normalidad. Más información

HiveActivity

Ejecuta una consulta de Hive en un clúster de EMR. HiveActivity facilita la configuración de una actividad de Amazon EMR y crea automáticamente tablas de Hive basadas en datos de entrada procedentes de Amazon S3 o Amazon RDS. Lo único que necesita especificar es la HiveQL que se debe ejecutar en los datos de origen. AWS Data Pipeline crea automáticamente tablas de Hive con ${input1}, ${input2}, etc. en función de los campos de entrada del objeto HiveActivity.

Para las entradas de Amazon S3 el campo dataFormat se usa para crear los nombres de las columnas de Hive.

En las entradas de MySQL (Amazon RDS), los nombres de las columnas para la consulta SQL se utilizan para crear los nombres de las columnas de Hive.

nota

Esta actividad usa CSV Serde de Hive.

Ejemplo

A continuación se muestra un ejemplo de este tipo de objeto. Este objeto hace referencia a otros tres objetos que se definen en el mismo archivo de definición de canalización. MySchedule es un objeto Schedule, y MyS3Input y MyS3Output son objetos del nodo de datos.

{ "name" : "ProcessLogData", "id" : "MyHiveActivity", "type" : "HiveActivity", "schedule" : { "ref": "MySchedule" }, "hiveScript" : "INSERT OVERWRITE TABLE ${output1} select host,user,time,request,status,size from ${input1};", "input" : { "ref": "MyS3Input" }, "output" : { "ref": "MyS3Output" }, "runsOn" : { "ref": "MyEmrCluster" } }

Sintaxis

Campos de invocación de objetos Descripción Tipo de slot
horario Este objeto se invoca dentro de la ejecución de un intervalo de programación. Especifique una referencia de programación a otro objeto para establecer el orden de ejecución de dependencia para este objeto. Puede cumplir este requisito estableciendo de forma explícita un programa en el objeto, por ejemplo, especificando "schedule": {"ref": "DefaultSchedule"}. En la mayoría de los casos, es mejor poner la referencia de programación en el objeto de la canalización predeterminado de modo que todos los objetos hereden ese programa. O bien, si la canalización tiene un árbol de programas (programas dentro del programa maestro), puede crear un objeto principal que tenga una referencia de programación. Para obtener más información acerca de las configuraciones de programación opcionales de ejemplo, consulte https://docs.aws.amazon.com/datapipeline/latest/DeveloperGuide/dp-object-schedule.html. Objeto de referencia, por ejemplo, "schedule":{"ref":"myScheduleId"}

Grupo obligatorio (se requiere uno de los siguientes) Descripción Tipo de slot
hiveScript El script de Hive que se ejecutará. Cadena
scriptUri La ubicación del script de Hive que se ejecutará (por ejemplo, s3://scriptLocation). Cadena

Grupo obligatorio Descripción Tipo de slot
runsOn El clúster de EMR en el que se ejecuta HiveActivity. Objeto de referencia, por ejemplo, "runsOn":{"ref":"myEmrClusterId"}
workerGroup El grupo de procesos de trabajo. Este se usa para dirigir tareas. Si proporciona un valor runsOn y existe workerGroup, workerGroup se ignora. Cadena
input El origen de datos de entrada. Objeto de referencia, por ejemplo, "input":{"ref":"myDataNodeId"}
output El origen de datos de salida. Objeto de referencia, por ejemplo, "output":{"ref":"myDataNodeId"}

Campos opcionales Descripción Tipo de slot
attemptStatus Estado más reciente notificado por la actividad remota. Cadena
attemptTimeout Tiempo de espera para que se complete el trabajo remoto. Si se establece, se puede reintentar una actividad remota que no se complete dentro del tiempo de inicio establecido. Periodo
dependsOn Especificar la dependencia de otro objeto ejecutable. Objeto de referencia, por ejemplo, "dependsOn":{"ref":"myActivityId"}
failureAndRerunMode failureAndRerunMode. Enumeración
hadoopQueue El nombre de cola de programador Hadoop en el que se enviará el trabajo. Cadena
lateAfterTimeout El tiempo transcurrido desde el inicio de la canalización dentro del cual el objeto debe completarse. Solo se activa cuando el tipo de programación no está establecido en ondemand. Periodo
maxActiveInstances El número máximo de instancias activas simultáneas de un componente. Las nuevas ejecuciones no cuentan para el número de instancias activas. Entero
maximumRetries El número máximo de intentos en caso de error. Entero
onFail Acción que se debe ejecutar cuando el objeto actual produzca un error. Objeto de referencia, por ejemplo, "onFail":{"ref":"myActionId"}
onLateAction Acciones que deben iniciarse si un objeto todavía no se ha programado o no se ha completado. Objeto de referencia, por ejemplo, "onLateAction":{"ref":"myActionId"}
onSuccess Acción que se debe ejecutar cuando el objeto actual se complete correctamente. Objeto de referencia, por ejemplo, "onSuccess":{"ref":"myActionId"}
parent Elemento principal del objeto actual del que se heredarán los slots. Objeto de referencia, por ejemplo, "parent":{"ref":"myBaseObjectId"}
pipelineLogUri El URI de S3 (como 's3://BucketName/Key/') para cargar registros para la canalización. Cadena
postActivityTaskConfig Script de configuración después de la actividad que se va a ejecutar. Este consta de un URI del script de shell en Amazon S3 y una lista de argumentos. Objeto de referencia, por ejemplo, "postActivityTaskConfig":{"ref":"myShellScriptConfigId"}
preActivityTaskConfig Script de configuración antes de la actividad que se va a ejecutar. Este consta de un URI del script de shell en Amazon S3 y una lista de argumentos. Objeto de referencia, por ejemplo, "preActivityTaskConfig":{"ref":"myShellScriptConfigId"}
precondition Opcionalmente, defina una condición previa. Un nodo de datos no se marca como "READY" hasta que se han cumplido todas las condiciones previas. Objeto de referencia, por ejemplo, "precondition":{"ref":"myPreconditionId"}
reportProgressTimeout Tiempo de espera para llamadas sucesivas del trabajo remoto a reportProgress. Si se establece, las actividades remotas que no informen de su progreso durante el período especificado pueden considerarse estancadas y, en consecuencia, reintentarse. Periodo
resizeClusterBeforeRunning Cambiar el tamaño del clúster antes de realizar esta actividad para adaptarse a los nodos de datos de DynamoDB especificados como entradas o salidas.
nota

Si una actividad usa un DynamoDBDataNode como nodo de datos de entrada o salida y se establece resizeClusterBeforeRunning en TRUE, AWS Data Pipeline comienza a usar los tipos de instancia m3.xlarge. Se sobrescriben las opciones de tipo de instancia con m3.xlarge, lo que podría aumentar los costos mensuales.

Booleano
resizeClusterMaxInstances Un límite del número máximo de instancias que el algoritmo de cambio de tamaño puede solicitar. Entero
retryDelay Duración del tiempo de espera entre dos reintentos. Periodo
scheduleType El tipo de programa le permite especificar si los objetos de la definición de la canalización deben programarse al principio del intervalo o al final de este. La programación de estilo de serie temporal significa que las instancias se programan al final de cada intervalo y la programación de estilo cron significa que las instancias se programan al principio de cada intervalo. Un programa bajo demanda le permite ejecutar una canalización una vez por activación. Esto significa que no tiene que clonar o recrear la canalización para ejecutarla de nuevo. Si usa un programa bajo demanda, debe especificarse en el objeto predeterminado y debe ser el único scheduleType especificado para los objetos de la canalización. Para usar canalizaciones bajo demanda, solo tiene que llamar a la operación ActivatePipeline para cada ejecución posterior. Los valores son: cron, ondemand y timeseries. Enumeración
scriptVariable Especifica variables de script para que Amazon EMR se pase a Hive al ejecutar un script. Por ejemplo, las siguientes variables de script de ejemplo pasarían una variable SAMPLE y FILTER_DATE a Hive: SAMPLE=s3://elasticmapreduce/samples/hive-ads y FILTER_DATE=#{format(@scheduledStartTime,'YYYY-MM-dd')}%. Este campo acepta varios valores y funciona con los campos script y scriptUri. Además, scriptVariable funciona independientemente de si stage se establece en true o false. Este campo es especialmente útil para enviar valores dinámicos a Hive mediante expresiones y funciones de AWS Data Pipeline. Cadena
etapa Determina si el uso transitorio se habilita antes o después de la ejecución del script. No se permite con Hive 11, de modo que use una versión 3.2.0 o superior de AMI de Amazon EMR. Booleano

Campos de tiempo de ejecución Descripción Tipo de slot
@activeInstances Lista de los objetos de instancias activas programados actualmente. Objeto de referencia, por ejemplo, "activeInstances":{"ref":"myRunnableObjectId"}
@actualEndTime La hora a la que finalizó la ejecución de este objeto. DateTime
@actualStartTime La hora a la que comenzó la ejecución de este objeto. DateTime
cancellationReason El valor de cancellationReason si este objeto se ha cancelado. Cadena
@cascadeFailedOn Descripción de la cadena de dependencia en la que ha fallado el objeto. Objeto de referencia, por ejemplo, "cascadeFailedOn":{"ref":"myRunnableObjectId"}
emrStepLog Registros de pasos de Amazon EMR disponibles únicamente sobre intentos de actividad de EMR. Cadena
errorId El valor de errorId si este objeto ha fallado. Cadena
errorMessage El valor de errorMessage si este objeto ha fallado. Cadena
errorStackTrace El seguimiento de la pila de error si este objeto ha fallado. Cadena
@finishedTime La hora a la que este objeto finalizó su ejecución. DateTime
hadoopJobLog Los registros de trabajo de Hadoop disponibles sobre intentos de actividades basadas en EMR. Cadena
@healthStatus El estado de salud del objeto que refleja el éxito o el fracaso de la última instancia de objeto que alcanzó un estado terminado. Cadena
@healthStatusFromInstanceId ID del último objeto de instancia que alcanzó un estado terminado. Cadena
@healthStatusUpdatedTime Hora a la que el estado de salud se actualizó la última vez. DateTime
hostname El nombre de host del cliente que recogió el intento de tarea. Cadena
@lastDeactivatedTime La hora a la que este objeto se desactivó la última vez. DateTime
@latestCompletedRunTime Hora de la última ejecución para la que se completó la ejecución. DateTime
@latestRunTime Hora de la última ejecución para la que se programó la ejecución. DateTime
@nextRunTime Hora de ejecución que se va a programar a continuación. DateTime
reportProgressTime La hora más reciente a la que la actividad remota notificó algún progreso. DateTime
@scheduledEndTime Hora de finalización programada de un objeto. DateTime
@scheduledStartTime Hora de comienzo programada de un objeto. DateTime
@status El estado de este objeto. Cadena
@version Versión de la canalización con la que se creó el objeto. Cadena
@waitingOn Descripción de la lista de dependencias de la que este objeto está a la espera. Objeto de referencia, por ejemplo, "waitingOn":{"ref":"myRunnableObjectId"}

Campos del sistema Descripción Tipo de slot
@error Error al describir el objeto mal estructurado. Cadena
@pipelineId ID de la canalización a la que pertenece este objeto. Cadena
@sphere La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. Cadena

Véase también