API de clasificador - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

API de clasificador

La API de clasificador describe los tipos de datos de clasificador de AWS Glue e incluye la API de creación, eliminación, actualización y creación de listados de clasificadores.

Tipos de datos

Estructura Classifier

Los clasificadores se disparan durante una tarea de rastreo. Un clasificador comprueba si un determinado archivo está en un formato que puede administrar. En caso afirmativo, el clasificador crea un esquema en forma de un objeto StructType que coincida con formato de datos.

Puede utilizar los clasificadores estándar que suministra AWS Glue o puede escribir sus propios clasificadores para clasificar mejor los orígenes de datos y especificar los esquemas adecuados para usar con ellos. Una clasificador puede ser un clasificador grok, un clasificador XML, un clasificador JSON o un clasificador CSV personalizado, en función de lo que se especifique en uno de los campos del objeto Classifier.

Campos
  • GrokClassifier: objeto GrokClassifier.

    Un clasificador que utiliza grok.

  • XMLClassifier: objeto XMLClassifier.

    Un clasificador de contenido XML.

  • JsonClassifier: objeto JsonClassifier.

    Un clasificador de contenido JSON.

  • CsvClassifier: objeto CsvClassifier.

    Un clasificador de valores separados por comas (CSV).

Estructura GrokClassifier

Un clasificador que utiliza patrones grok.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • ClassificationObligatorio: cadena UTF-8.

    Identificador del formato de los datos que el clasificador correlaciona; por ejemplo, Twitter, JSON, registros de Omniture, etc.

  • CreationTime: marca temporal.

    La hora de registro de este clasificador.

  • LastUpdated: marca temporal.

    La hora de actualización de este clasificador.

  • Version: número (largo).

    Versión de este clasificador.

  • GrokPatternObligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 2048 bytes de largo como máximo, que coincide con el A Logstash Grok string pattern.

    El patrón grok que este clasificador aplica a un almacén de datos. Para obtener más información, consulte los patrones integrados en Escritura de clasificadores personalizados.

  • CustomPatterns: cadena UTF-8 con un máximo de 16000 bytes de largo, que coincide con el URI address multi-line string pattern.

    Patrones de grok personalizados opcionales definidos por este clasificador. Para obtener más información, consulte los patrones personalizados en Escritura de clasificadores personalizados.

Estructura XMLClassifier

Un clasificador de contenido XML.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • ClassificationObligatorio: cadena UTF-8.

    Identificador del formato de datos que el clasificador correlaciona.

  • CreationTime: marca temporal.

    La hora de registro de este clasificador.

  • LastUpdated: marca temporal.

    La hora de actualización de este clasificador.

  • Version: número (largo).

    Versión de este clasificador.

  • RowTag: cadena UTF-8.

    La etiqueta XML que designa el elemento que contiene cada registro en un documento XML que se está analizando. Esto no puede identificar un elemento de cierre (cerrado por />). Un elemento de fila vacío que solo contenga atributos puede analizarse siempre y cuando finalice con una etiqueta de cierre (por ejemplo, <row item_a="A" item_b="B"></row> es correcto, pero <row item_a="A" item_b="B" /> no lo es).

Estructura JsonClassifier

Un clasificador de contenido JSON.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • CreationTime: marca temporal.

    La hora de registro de este clasificador.

  • LastUpdated: marca temporal.

    La hora de actualización de este clasificador.

  • Version: número (largo).

    Versión de este clasificador.

  • JsonPathObligatorio: cadena UTF-8.

    Una cadena JsonPath que define los datos JSON que el clasificador debe clasificar. AWS Glue soporta un subconjunto de operadores de JsonPath, tal y como se describe en Escritura de clasificadores personalizados de JsonPath.

Estructura CsvClassifier

Clasificador de contenido CSV personalizado.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • CreationTime: marca temporal.

    La hora de registro de este clasificador.

  • LastUpdated: marca temporal.

    La hora de actualización de este clasificador.

  • Version: número (largo).

    Versión de este clasificador.

  • Delimiter: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #10.

    Símbolo personalizado que indica qué elemento va a separar cada entrada de columna en la fila.

  • QuoteSymbol: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #10.

    Símbolo personalizado que indica qué elemento va a combinar contenido en un valor de columna único. Debe ser distinto al delimitador de columnas.

  • ContainsHeader: cadena UTF-8 (valores válidos: UNKNOWN | PRESENT | ABSENT).

    Indica si el archivo CSV contiene un encabezado.

  • Header: matriz de cadenas UTF-8.

    Lista de cadenas que representan nombres de columnas.

  • DisableValueTrimming: booleano.

    Indica que los valores no deben recortarse antes de identificar el tipo de valores de columna. El valor predeterminado es true.

  • AllowSingleColumn: booleano.

    Permite procesar los archivos que contienen una sola columna.

  • CustomDatatypeConfigured: booleano.

    Permite configurar el tipo de datos personalizado.

  • CustomDatatypes: matriz de cadenas UTF-8.

    Lista de tipos de datos personalizados que incluyen "BINARIO", "BOOLEANO", "FECHA", "DECIMAL", "DOUBLE", "FLOAT", "INT", "LONG", "SHORT", "STRING", "TIMESTAMP".

  • Serde: cadena UTF-8 (valores válidos: OpenCSVSerDe | LazySimpleSerDe | None).

    Establece el SerDe para procesar CSV en el clasificador, que se aplicará en el catálogo de datos. Los valores válidos son OpenCSVSerDe, LazySimpleSerDe y None. Puede especificar el valor None cuando desee que el rastreador realice la detección.

Estructura CreateGrokClassifierRequest

Especifica un clasificador grok para que CreateClassifier lo cree.

Campos
  • ClassificationObligatorio: cadena UTF-8.

    Identificador del formato de los datos que el clasificador correlaciona; por ejemplo, Twitter, JSON, registros de Omniture, Amazon CloudWatch Logs, etc.

  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre del nuevo clasificador.

  • GrokPatternObligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 2048 bytes de largo como máximo, que coincide con el A Logstash Grok string pattern.

    Patrón de grok que este clasificador utiliza.

  • CustomPatterns: cadena UTF-8 con un máximo de 16000 bytes de largo, que coincide con el URI address multi-line string pattern.

    Patrones de grok personalizados opcionales utilizados por este clasificador.

Estructura UpdateGrokClassifierRequest

Especifica un clasificador de grok que debe actualizarse cuando se pase a UpdateClassifier.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre del elemento GrokClassifier.

  • Classification: cadena UTF-8.

    Identificador del formato de los datos que el clasificador correlaciona; por ejemplo, Twitter, JSON, registros de Omniture, Amazon CloudWatch Logs, etc.

  • GrokPattern: cadena UTF-8, con 1 byte de largo como mínimo y 2048 bytes de largo como máximo, que coincide con el A Logstash Grok string pattern.

    Patrón de grok que este clasificador utiliza.

  • CustomPatterns: cadena UTF-8 con un máximo de 16000 bytes de largo, que coincide con el URI address multi-line string pattern.

    Patrones de grok personalizados opcionales utilizados por este clasificador.

Estructura CreateXMLClassifierRequest

Especifica un clasificador de XML para que CreateClassifier lo cree.

Campos
  • ClassificationObligatorio: cadena UTF-8.

    Identificador del formato de datos que el clasificador correlaciona.

  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • RowTag: cadena UTF-8.

    La etiqueta XML que designa el elemento que contiene cada registro en un documento XML que se está analizando. Esto no puede identificar un elemento de cierre (cerrado por />). Un elemento de fila vacío que solo contenga atributos puede analizarse siempre y cuando finalice con una etiqueta de cierre (por ejemplo, <row item_a="A" item_b="B"></row> es correcto, pero <row item_a="A" item_b="B" /> no lo es).

Estructura UpdateXMLClassifierRequest

Especifica un clasificador de XML que debe actualizarse.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • Classification: cadena UTF-8.

    Identificador del formato de datos que el clasificador correlaciona.

  • RowTag: cadena UTF-8.

    La etiqueta XML que designa el elemento que contiene cada registro en un documento XML que se está analizando. Tenga en cuenta que no puede identificar un elemento que se autocierra (cerrado con />). Un elemento de fila vacío que solo contenga atributos puede analizarse siempre y cuando finalice con una etiqueta de cierre (por ejemplo, <row item_a="A" item_b="B"></row> es correcto, pero <row item_a="A" item_b="B" /> no lo es).

Estructura CreateJsonClassifierRequest

Especifica un clasificador de JSON para que CreateClassifier lo cree.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • JsonPathObligatorio: cadena UTF-8.

    Una cadena JsonPath que define los datos JSON que el clasificador debe clasificar. AWS Glue soporta un subconjunto de operadores de JsonPath, tal y como se describe en Escritura de clasificadores personalizados de JsonPath.

Estructura UpdateJsonClassifierRequest

Especifica un clasificador de JSON que debe actualizarse.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • JsonPath: cadena UTF-8.

    Una cadena JsonPath que define los datos JSON que el clasificador debe clasificar. AWS Glue soporta un subconjunto de operadores de JsonPath, tal y como se describe en Escritura de clasificadores personalizados de JsonPath.

Estructura CreateCsvClassifierRequest

Especifica un clasificador CSV personalizado para que CreateClassifier lo cree.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • Delimiter: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #10.

    Símbolo personalizado que indica qué elemento va a separar cada entrada de columna en la fila.

  • QuoteSymbol: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #10.

    Símbolo personalizado que indica qué elemento va a combinar contenido en un valor de columna único. Debe ser diferente al delimitador de columnas.

  • ContainsHeader: cadena UTF-8 (valores válidos: UNKNOWN | PRESENT | ABSENT).

    Indica si el archivo CSV contiene un encabezado.

  • Header: matriz de cadenas UTF-8.

    Lista de cadenas que representan nombres de columnas.

  • DisableValueTrimming: booleano.

    Indica que los valores no deben recortarse antes de identificar el tipo de valores de columna. El valor predeterminado es true.

  • AllowSingleColumn: booleano.

    Permite procesar los archivos que contienen una sola columna.

  • CustomDatatypeConfigured: booleano.

    Permite la configuración de tipos de datos personalizados.

  • CustomDatatypes: matriz de cadenas UTF-8.

    Crea una lista de tipos de datos personalizados compatibles.

  • Serde: cadena UTF-8 (valores válidos: OpenCSVSerDe | LazySimpleSerDe | None).

    Establece el SerDe para procesar CSV en el clasificador, que se aplicará en el catálogo de datos. Los valores válidos son OpenCSVSerDe, LazySimpleSerDe y None. Puede especificar el valor None cuando desee que el rastreador realice la detección.

Estructura UpdateCsvClassifierRequest

Especifica un clasificador CSV personalizado para que se actualice.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • Delimiter: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #10.

    Símbolo personalizado que indica qué elemento va a separar cada entrada de columna en la fila.

  • QuoteSymbol: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #10.

    Símbolo personalizado que indica qué elemento va a combinar contenido en un valor de columna único. Debe ser distinto al delimitador de columnas.

  • ContainsHeader: cadena UTF-8 (valores válidos: UNKNOWN | PRESENT | ABSENT).

    Indica si el archivo CSV contiene un encabezado.

  • Header: matriz de cadenas UTF-8.

    Lista de cadenas que representan nombres de columnas.

  • DisableValueTrimming: booleano.

    Indica que los valores no deben recortarse antes de identificar el tipo de valores de columna. El valor predeterminado es true.

  • AllowSingleColumn: booleano.

    Permite procesar los archivos que contienen una sola columna.

  • CustomDatatypeConfigured: booleano.

    Especifica la configuración de los tipos de datos personalizados.

  • CustomDatatypes: matriz de cadenas UTF-8.

    Especifica una lista de tipos de datos personalizados compatibles.

  • Serde: cadena UTF-8 (valores válidos: OpenCSVSerDe | LazySimpleSerDe | None).

    Establece el SerDe para procesar CSV en el clasificador, que se aplicará en el catálogo de datos. Los valores válidos son OpenCSVSerDe, LazySimpleSerDe y None. Puede especificar el valor None cuando desee que el rastreador realice la detección.

Operaciones

Acción CreateClassifier (Python: create_classifier)

Crea un clasificador en la cuenta del usuario. Puede ser GrokClassifier, XMLClassifier, JsonClassifier o CsvClassifier, en función de qué campo de la solicitud esté presente.

Solicitud
Respuesta
  • Sin parámetros de respuesta.

Errores
  • AlreadyExistsException

  • InvalidInputException

  • OperationTimeoutException

Acción DeleteClassifier (Python: delete_classifier)

Quita un clasificador del catálogo de datos.

Solicitud
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre del clasificador que debe eliminarse.

Respuesta
  • Sin parámetros de respuesta.

Errores
  • EntityNotFoundException

  • OperationTimeoutException

Acción GetClassifier (Python: get_classifier)

Recupera un clasificador por su nombre.

Solicitud
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre del clasificador que debe recuperarse.

Respuesta
  • Classifier: objeto Clasificador.

    El clasificador solicitado.

Errores
  • EntityNotFoundException

  • OperationTimeoutException

Acción GetClassifiers (Python: get_classifiers)

Muestra todos los objetos de tipo clasificador del catálogo de datos.

Solicitud
  • MaxResults: número (entero) que no es inferior a 1 ni es superior a 1000.

    Tamaño de la lista que se devolverá (opcional).

  • NextToken: cadena UTF-8.

    Token de continuación opcional.

Respuesta
  • Classifiers: matriz de objetos Clasificador.

    La lista de objetos de tipo clasificador solicitada.

  • NextToken: cadena UTF-8.

    Token de continuación.

Errores
  • OperationTimeoutException

Acción UpdateClassifier (Python: update_classifier)

Modifica un clasificador existente (GrokClassifier, XMLClassifier, JsonClassifier o CsvClassifier, en función del campo que esté presente).

Solicitud
Respuesta
  • Sin parámetros de respuesta.

Errores
  • InvalidInputException

  • VersionMismatchException

  • EntityNotFoundException

  • OperationTimeoutException