La API de clasificador describe los tipos de datos de clasificador de AWS Glue e incluye la API de creación, eliminación, actualización y creación de listados de clasificadores.
Tipos de datos
Estructura Classifier
Los clasificadores se disparan durante una tarea de rastreo. Un clasificador comprueba si un determinado archivo está en un formato que puede administrar. En caso afirmativo, el clasificador crea un esquema en forma de un objeto StructType
que coincida con formato de datos.
Puede utilizar los clasificadores estándar que suministra AWS Glue o puede escribir sus propios clasificadores para clasificar mejor los orígenes de datos y especificar los esquemas adecuados para usar con ellos. Una clasificador puede ser un clasificador grok
, un clasificador XML
, un clasificador JSON
o un clasificador CSV
personalizado, en función de lo que se especifique en uno de los campos del objeto Classifier
.
Campos
-
GrokClassifier
: un objeto GrokClassifier.Un clasificador que utiliza
grok
. -
XMLClassifier
: un objeto XMLClassifier.Un clasificador de contenido XML.
-
JsonClassifier
: un objeto JsonClassifier.Un clasificador de contenido JSON.
-
CsvClassifier
: un objeto CsvClassifier.Un clasificador de valores separados por comas (CSV).
Estructura GrokClassifier
Un clasificador que utiliza patrones grok
.
Campos
-
Name
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre del clasificador.
-
Classification
– Obligatorio: cadena UTF-8.Identificador del formato de los datos que el clasificador correlaciona; por ejemplo, Twitter, JSON, registros de Omniture, etc.
-
CreationTime
: marca temporal.La hora de registro de este clasificador.
-
LastUpdated
: marca temporal.La hora de actualización de este clasificador.
-
Version
: número (largo).Versión de este clasificador.
-
GrokPattern
– Obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 2048 bytes de largo como máximo, que coincide con el A Logstash Grok string pattern.El patrón grok que este clasificador aplica a un almacén de datos. Para obtener más información, consulte los patrones integrados en Escritura de clasificadores personalizados.
-
CustomPatterns
: cadena UTF-8 con un máximo de 16000 bytes de largo, que coincide con el URI address multi-line string pattern.Patrones de grok personalizados opcionales definidos por este clasificador. Para obtener más información, consulte los patrones personalizados en Escritura de clasificadores personalizados.
Estructura XMLClassifier
Un clasificador de contenido XML
.
Campos
-
Name
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre del clasificador.
-
Classification
– Obligatorio: cadena UTF-8.Identificador del formato de datos que el clasificador correlaciona.
-
CreationTime
: marca temporal.La hora de registro de este clasificador.
-
LastUpdated
: marca temporal.La hora de actualización de este clasificador.
-
Version
: número (largo).Versión de este clasificador.
-
RowTag
: cadena UTF-8.La etiqueta XML que designa el elemento que contiene cada registro en un documento XML que se está analizando. Esto no puede identificar un elemento de cierre (cerrado por
/>
). Un elemento de fila vacío que solo contenga atributos puede analizarse siempre y cuando finalice con una etiqueta de cierre (por ejemplo,<row item_a="A" item_b="B"></row>
es correcto, pero<row item_a="A" item_b="B" />
no lo es).
Estructura JsonClassifier
Un clasificador de contenido JSON
.
Campos
-
Name
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre del clasificador.
-
CreationTime
: marca temporal.La hora de registro de este clasificador.
-
LastUpdated
: marca temporal.La hora de actualización de este clasificador.
-
Version
: número (largo).Versión de este clasificador.
-
JsonPath
– Obligatorio: cadena UTF-8.Una cadena
JsonPath
que define los datos JSON que el clasificador debe clasificar. AWS Glue soporta un subconjunto de operadores de JsonPath, tal y como se describe en Escritura de clasificadores personalizados de JsonPath.
Estructura CsvClassifier
Clasificador de contenido CSV
personalizado.
Campos
-
Name
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre del clasificador.
-
CreationTime
: marca temporal.La hora de registro de este clasificador.
-
LastUpdated
: marca temporal.La hora de actualización de este clasificador.
-
Version
: número (largo).Versión de este clasificador.
-
Delimiter
: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #26.Símbolo personalizado que indica qué elemento va a separar cada entrada de columna en la fila.
-
QuoteSymbol
: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #26.Símbolo personalizado que indica qué elemento va a combinar contenido en un valor de columna único. Debe ser distinto al delimitador de columnas.
-
ContainsHeader
: cadena UTF-8 (valores válidos:UNKNOWN
|PRESENT
|ABSENT
).Indica si el archivo CSV contiene un encabezado.
-
Header
: matriz de cadenas UTF-8.Lista de cadenas que representan nombres de columnas.
-
DisableValueTrimming
: booleano.Indica que los valores no deben recortarse antes de identificar el tipo de valores de columna. El valor predeterminado es
true
. -
AllowSingleColumn
: booleano.Permite procesar los archivos que contienen una sola columna.
-
CustomDatatypeConfigured
: booleano.Permite configurar el tipo de datos personalizado.
-
CustomDatatypes
: matriz de cadenas UTF-8.Lista de tipos de datos personalizados que incluyen "BINARIO", "BOOLEANO", "FECHA", "DECIMAL", "DOUBLE", "FLOAT", "INT", "LONG", "SHORT", "STRING", "TIMESTAMP".
-
Serde
: cadena UTF-8 (valores válidos:OpenCSVSerDe
|LazySimpleSerDe
|None
).Establece el SerDe para procesar CSV en el clasificador, que se aplicará en el catálogo de datos. Los valores válidos son
OpenCSVSerDe
,LazySimpleSerDe
yNone
. Puede especificar el valorNone
cuando desee que el rastreador realice la detección.
Estructura CreateGrokClassifierRequest
Especifica un clasificador grok
para que CreateClassifier
lo cree.
Campos
-
Classification
– Obligatorio: cadena UTF-8.Identificador del formato de los datos que el clasificador correlaciona; por ejemplo, Twitter, JSON, registros de Omniture, Amazon CloudWatch Logs, etc.
-
Name
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.Nombre del nuevo clasificador.
-
GrokPattern
– Obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 2048 bytes de largo como máximo, que coincide con el A Logstash Grok string pattern.Patrón de grok que este clasificador utiliza.
-
CustomPatterns
: cadena UTF-8 con un máximo de 16000 bytes de largo, que coincide con el URI address multi-line string pattern.Patrones de grok personalizados opcionales utilizados por este clasificador.
Estructura UpdateGrokClassifierRequest
Especifica un clasificador de grok que debe actualizarse cuando se pase a UpdateClassifier
.
Campos
-
Name
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.Nombre del elemento
GrokClassifier
. -
Classification
: cadena UTF-8.Identificador del formato de los datos que el clasificador correlaciona; por ejemplo, Twitter, JSON, registros de Omniture, Amazon CloudWatch Logs, etc.
-
GrokPattern
: cadena UTF-8, con 1 byte de largo como mínimo y 2048 bytes de largo como máximo, que coincide con el A Logstash Grok string pattern.Patrón de grok que este clasificador utiliza.
-
CustomPatterns
: cadena UTF-8 con un máximo de 16000 bytes de largo, que coincide con el URI address multi-line string pattern.Patrones de grok personalizados opcionales utilizados por este clasificador.
Estructura CreateXMLClassifierRequest
Especifica un clasificador de XML para que CreateClassifier
lo cree.
Campos
-
Classification
– Obligatorio: cadena UTF-8.Identificador del formato de datos que el clasificador correlaciona.
-
Name
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre del clasificador.
-
RowTag
: cadena UTF-8.La etiqueta XML que designa el elemento que contiene cada registro en un documento XML que se está analizando. Esto no puede identificar un elemento de cierre (cerrado por
/>
). Un elemento de fila vacío que solo contenga atributos puede analizarse siempre y cuando finalice con una etiqueta de cierre (por ejemplo,<row item_a="A" item_b="B"></row>
es correcto, pero<row item_a="A" item_b="B" />
no lo es).
Estructura UpdateXMLClassifierRequest
Especifica un clasificador de XML que debe actualizarse.
Campos
-
Name
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre del clasificador.
-
Classification
: cadena UTF-8.Identificador del formato de datos que el clasificador correlaciona.
-
RowTag
: cadena UTF-8.La etiqueta XML que designa el elemento que contiene cada registro en un documento XML que se está analizando. Tenga en cuenta que no puede identificar un elemento que se autocierra (cerrado con
/>
). Un elemento de fila vacío que solo contenga atributos puede analizarse siempre y cuando finalice con una etiqueta de cierre (por ejemplo,<row item_a="A" item_b="B"></row>
es correcto, pero<row item_a="A" item_b="B" />
no lo es).
Estructura CreateJsonClassifierRequest
Especifica un clasificador de JSON para que CreateClassifier
lo cree.
Campos
-
Name
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre del clasificador.
-
JsonPath
– Obligatorio: cadena UTF-8.Una cadena
JsonPath
que define los datos JSON que el clasificador debe clasificar. AWS Glue soporta un subconjunto de operadores de JsonPath, tal y como se describe en Escritura de clasificadores personalizados de JsonPath.
Estructura UpdateJsonClassifierRequest
Especifica un clasificador de JSON que debe actualizarse.
Campos
-
Name
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre del clasificador.
-
JsonPath
: cadena UTF-8.Una cadena
JsonPath
que define los datos JSON que el clasificador debe clasificar. AWS Glue soporta un subconjunto de operadores de JsonPath, tal y como se describe en Escritura de clasificadores personalizados de JsonPath.
Estructura CreateCsvClassifierRequest
Especifica un clasificador CSV personalizado para que CreateClassifier
lo cree.
Campos
-
Name
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre del clasificador.
-
Delimiter
: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #26.Símbolo personalizado que indica qué elemento va a separar cada entrada de columna en la fila.
-
QuoteSymbol
: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #26.Símbolo personalizado que indica qué elemento va a combinar contenido en un valor de columna único. Debe ser diferente al delimitador de columnas.
-
ContainsHeader
: cadena UTF-8 (valores válidos:UNKNOWN
|PRESENT
|ABSENT
).Indica si el archivo CSV contiene un encabezado.
-
Header
: matriz de cadenas UTF-8.Lista de cadenas que representan nombres de columnas.
-
DisableValueTrimming
: booleano.Indica que los valores no deben recortarse antes de identificar el tipo de valores de columna. El valor predeterminado es true.
-
AllowSingleColumn
: booleano.Permite procesar los archivos que contienen una sola columna.
-
CustomDatatypeConfigured
: booleano.Permite la configuración de tipos de datos personalizados.
-
CustomDatatypes
: matriz de cadenas UTF-8.Crea una lista de tipos de datos personalizados compatibles.
-
Serde
: cadena UTF-8 (valores válidos:OpenCSVSerDe
|LazySimpleSerDe
|None
).Establece el SerDe para procesar CSV en el clasificador, que se aplicará en el catálogo de datos. Los valores válidos son
OpenCSVSerDe
,LazySimpleSerDe
yNone
. Puede especificar el valorNone
cuando desee que el rastreador realice la detección.
Estructura UpdateCsvClassifierRequest
Especifica un clasificador CSV personalizado para que se actualice.
Campos
-
Name
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.El nombre del clasificador.
-
Delimiter
: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #26.Símbolo personalizado que indica qué elemento va a separar cada entrada de columna en la fila.
-
QuoteSymbol
: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #26.Símbolo personalizado que indica qué elemento va a combinar contenido en un valor de columna único. Debe ser distinto al delimitador de columnas.
-
ContainsHeader
: cadena UTF-8 (valores válidos:UNKNOWN
|PRESENT
|ABSENT
).Indica si el archivo CSV contiene un encabezado.
-
Header
: matriz de cadenas UTF-8.Lista de cadenas que representan nombres de columnas.
-
DisableValueTrimming
: booleano.Indica que los valores no deben recortarse antes de identificar el tipo de valores de columna. El valor predeterminado es true.
-
AllowSingleColumn
: booleano.Permite procesar los archivos que contienen una sola columna.
-
CustomDatatypeConfigured
: booleano.Especifica la configuración de los tipos de datos personalizados.
-
CustomDatatypes
: matriz de cadenas UTF-8.Especifica una lista de tipos de datos personalizados compatibles.
-
Serde
: cadena UTF-8 (valores válidos:OpenCSVSerDe
|LazySimpleSerDe
|None
).Establece el SerDe para procesar CSV en el clasificador, que se aplicará en el catálogo de datos. Los valores válidos son
OpenCSVSerDe
,LazySimpleSerDe
yNone
. Puede especificar el valorNone
cuando desee que el rastreador realice la detección.
Operaciones
Acción CreateClassifier (Python: create_classifier)
Crea un clasificador en la cuenta del usuario. Puede ser GrokClassifier
, XMLClassifier
, JsonClassifier
o CsvClassifier
, en función de qué campo de la solicitud esté presente.
Solicitud
-
GrokClassifier
: un objeto CreateGrokClassifierRequest.Objeto
GrokClassifier
que especifica el clasificador que debe crearse. -
XMLClassifier
: un objeto CreateXMLClassifierRequest.Objeto
XMLClassifier
que especifica el clasificador que debe crearse. -
JsonClassifier
: un objeto CreateJsonClassifierRequest.Objeto
JsonClassifier
que especifica el clasificador que debe crearse. -
CsvClassifier
: un objeto CreateCsvClassifierRequest.Objeto
CsvClassifier
que especifica el clasificador que debe crearse.
Respuesta
Sin parámetros de respuesta.
Errores
AlreadyExistsException
InvalidInputException
OperationTimeoutException
Acción DeleteClassifier (Python: delete_classifier)
Quita un clasificador del catálogo de datos.
Solicitud
-
Name
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.Nombre del clasificador que debe eliminarse.
Respuesta
Sin parámetros de respuesta.
Errores
EntityNotFoundException
OperationTimeoutException
Acción GetClassifier (Python: get_classifier)
Recupera un clasificador por su nombre.
Solicitud
-
Name
: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.Nombre del clasificador que debe recuperarse.
Respuesta
-
Classifier
: un objeto Clasificador.El clasificador solicitado.
Errores
EntityNotFoundException
OperationTimeoutException
Acción GetClassifiers (Python: get_classifiers)
Muestra todos los objetos de tipo clasificador del catálogo de datos.
Solicitud
-
MaxResults
: número (entero) que no es inferior a 1 ni es superior a 1000.Tamaño de la lista que se devolverá (opcional).
-
NextToken
: cadena UTF-8.Token de continuación opcional.
Respuesta
-
Classifiers
: matriz de objetos Clasificador.La lista de objetos de tipo clasificador solicitada.
-
NextToken
: cadena UTF-8.Token de continuación.
Errores
OperationTimeoutException
Acción UpdateClassifier (Python: update_classifier)
Modifica un clasificador existente (GrokClassifier
, XMLClassifier
, JsonClassifier
o CsvClassifier
, en función del campo que esté presente).
Solicitud
-
GrokClassifier
: un objeto UpdateGrokClassifierRequest.Objeto
GrokClassifier
con campos actualizados. -
XMLClassifier
: un objeto UpdateXMLClassifierRequest.Objeto
XMLClassifier
con campos actualizados. -
JsonClassifier
: un objeto UpdateJsonClassifierRequest.Objeto
JsonClassifier
con campos actualizados. -
CsvClassifier
: un objeto UpdateCsvClassifierRequest.Objeto
CsvClassifier
con campos actualizados.
Respuesta
Sin parámetros de respuesta.
Errores
InvalidInputException
VersionMismatchException
EntityNotFoundException
OperationTimeoutException