RegEx Data Format - AWS Data Pipeline

RegEx Data Format

Un formato de datos personalizado definido por una expresión regular.

Ejemplo

A continuación se muestra un ejemplo de este tipo de objeto.

{ "id" : "MyInputDataType", "type" : "RegEx", "inputRegEx" : "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?", "outputFormat" : "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s", "column" : [ "host STRING", "identity STRING", "user STRING", "time STRING", "request STRING", "status STRING", "size STRING", "referer STRING", "agent STRING" ] }

Sintaxis

Campos opcionales Descripción Tipo de slot
column Nombre de la columna con el tipo de datos especificado por cada campo para los datos descritos por este nodo de datos. Ejemplo: nombre de host STRING. Para varios valores, use nombres de columna y tipos de datos separados por un espacio. Cadena
inputRegEx La expresión regular para analizar un archivo de entrada de S3. inputRegEx proporciona una forma de recuperar columnas de datos relativamente no estructurados en un archivo. Cadena
outputFormat Los campos de columna recuperados por inputRegEx, pero a los que se hace referencia como %1$s %2$s mediante sintaxis del formateador de Java. Cadena
parent Elemento principal del objeto actual del que se heredarán los slots. Objeto de referencia, por ejemplo, "parent":{"ref":"myBaseObjectId"}

Campos de tiempo de ejecución Descripción Tipo de slot
@version Versión de la canalización con la que se creó el objeto. Cadena

Campos del sistema Descripción Tipo de slot
@error Error al describir el objeto mal estructurado. Cadena
@pipelineId ID de la canalización a la que pertenece este objeto. Cadena
@sphere La esfera de un objeto denota su lugar en el ciclo de vida: los objetos de componente dan lugar a objetos de instancia que ejecutan objetos de intento. Cadena