API de clasificador - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

API de clasificador

La API de clasificador describe los tipos de datos de clasificador de AWS Glue e incluye la API de creación, eliminación, actualización y creación de listados de clasificadores.

Tipos de datos

Estructura Classifier

Los clasificadores se disparan durante una tarea de rastreo. Un clasificador comprueba si un determinado archivo está en un formato que puede administrar. En caso afirmativo, el clasificador crea un esquema en forma de un objeto StructType que coincida con formato de datos.

Puede utilizar los clasificadores estándar que suministra AWS Glue o puede escribir sus propios clasificadores para clasificar mejor los orígenes de datos y especificar los esquemas adecuados para usar con ellos. Una clasificador puede ser un clasificador grok, un clasificador XML, un clasificador JSON o un clasificador CSV personalizado, en función de lo que se especifique en uno de los campos del objeto Classifier.

Campos
  • GrokClassifier: objeto GrokClassifier.

    Un clasificador que utiliza grok.

  • XMLClassifier: objeto XMLClassifier.

    Un clasificador de contenido XML.

  • JsonClassifier: objeto JsonClassifier.

    Un clasificador de contenido JSON.

  • CsvClassifier: objeto CsvClassifier.

    Un clasificador de valores separados por comas (CSV).

GrokClassifier estructura

Un clasificador que utiliza patrones grok.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • ClassificationObligatorio: cadena UTF-8.

    Identificador del formato de los datos que el clasificador correlaciona; por ejemplo, Twitter, JSON, registros de Omniture, etc.

  • CreationTime: marca temporal.

    La hora de registro de este clasificador.

  • LastUpdated: marca temporal.

    La hora de actualización de este clasificador.

  • Version: número (largo).

    Versión de este clasificador.

  • GrokPatternObligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 2048 bytes de largo como máximo, que coincide con el A Logstash Grok string pattern.

    El patrón grok que este clasificador aplica a un almacén de datos. Para obtener más información, consulte los patrones integrados en Escritura de clasificadores personalizados.

  • CustomPatterns: cadena UTF-8 con un máximo de 16000 bytes de largo, que coincide con el URI address multi-line string pattern.

    Patrones de grok personalizados opcionales definidos por este clasificador. Para obtener más información, consulte los patrones personalizados en Escritura de clasificadores personalizados.

Estructura XMLClassifier

Un clasificador de contenido XML.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • ClassificationObligatorio: cadena UTF-8.

    Identificador del formato de datos que el clasificador correlaciona.

  • CreationTime: marca temporal.

    La hora de registro de este clasificador.

  • LastUpdated: marca temporal.

    La hora de actualización de este clasificador.

  • Version: número (largo).

    Versión de este clasificador.

  • RowTag: cadena UTF-8.

    La etiqueta XML que designa el elemento que contiene cada registro en un documento XML que se está analizando. Esto no puede identificar un elemento de cierre (cerrado por />). Un elemento de fila vacío que solo contenga atributos puede analizarse siempre y cuando finalice con una etiqueta de cierre (por ejemplo, <row item_a="A" item_b="B"></row> es correcto, pero <row item_a="A" item_b="B" /> no lo es).

JsonClassifier estructura

Un clasificador de contenido JSON.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • CreationTime: marca temporal.

    La hora de registro de este clasificador.

  • LastUpdated: marca temporal.

    La hora de actualización de este clasificador.

  • Version: número (largo).

    Versión de este clasificador.

  • JsonPathObligatorio: cadena UTF-8.

    UnaJsonPath cadena que define los datos JSON que el clasificador va a clasificar. AWS Glueadmite un subconjunto de JsonPath, como se describe en Escritura de clasificadores JsonPath personalizados.

CsvClassifier estructura

Clasificador de contenido CSV personalizado.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • CreationTime: marca temporal.

    La hora de registro de este clasificador.

  • LastUpdated: marca temporal.

    La hora de actualización de este clasificador.

  • Version: número (largo).

    Versión de este clasificador.

  • Delimiter: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #10.

    Símbolo personalizado que indica qué elemento va a separar cada entrada de columna en la fila.

  • QuoteSymbol: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #10.

    Símbolo personalizado que indica qué elemento va a combinar contenido en un valor de columna único. Debe ser distinto al delimitador de columnas.

  • ContainsHeader: cadena UTF-8 (valores válidos: UNKNOWN | PRESENT | ABSENT).

    Indica si el archivo CSV contiene un encabezado.

  • Header: matriz de cadenas UTF-8.

    Lista de cadenas que representan nombres de columnas.

  • DisableValueTrimming: booleano.

    Indica que los valores no deben recortarse antes de identificar el tipo de valores de columna. El valor predeterminado es true.

  • AllowSingleColumn: booleano.

    Permite procesar los archivos que contienen una sola columna.

  • CustomDatatypeConfigured: booleano.

    Permite configurar el tipo de datos personalizado.

  • CustomDatatypes: matriz de cadenas UTF-8.

    Lista de tipos de datos personalizados que incluyen "BINARIO", "BOOLEANO", "FECHA", "DECIMAL", "DOUBLE", "FLOAT", "INT", "LONG", "SHORT", "STRING", "TIMESTAMP".

CreateGrokClassifierRequest estructura

Especifica un clasificador grok para que CreateClassifier lo cree.

Campos
  • ClassificationObligatorio: cadena UTF-8.

    Un identificador del formato de datos con el que coincide el clasificador, como Twitter, JSON, Omniture CloudWatch logs, Amazon Logs, etc.

  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre del nuevo clasificador.

  • GrokPatternObligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 2048 bytes de largo como máximo, que coincide con el A Logstash Grok string pattern.

    Patrón de grok que este clasificador utiliza.

  • CustomPatterns: cadena UTF-8 con un máximo de 16000 bytes de largo, que coincide con el URI address multi-line string pattern.

    Patrones de grok personalizados opcionales utilizados por este clasificador.

UpdateGrokClassifierRequest estructura

Especifica un clasificador de grok que debe actualizarse cuando se pase a UpdateClassifier.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre del elemento GrokClassifier.

  • Classification: cadena UTF-8.

    Un identificador del formato de datos con el que coincide el clasificador, como Twitter, JSON, Omniture CloudWatch logs, Amazon Logs, etc.

  • GrokPattern: cadena UTF-8, con 1 byte de largo como mínimo y 2048 bytes de largo como máximo, que coincide con el A Logstash Grok string pattern.

    Patrón de grok que este clasificador utiliza.

  • CustomPatterns: cadena UTF-8 con un máximo de 16000 bytes de largo, que coincide con el URI address multi-line string pattern.

    Patrones de grok personalizados opcionales utilizados por este clasificador.

ClassifierRequest Estructura CreateXML

Especifica un clasificador de XML para que CreateClassifier lo cree.

Campos
  • ClassificationObligatorio: cadena UTF-8.

    Identificador del formato de datos que el clasificador correlaciona.

  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • RowTag: cadena UTF-8.

    La etiqueta XML que designa el elemento que contiene cada registro en un documento XML que se está analizando. Esto no puede identificar un elemento de cierre (cerrado por />). Un elemento de fila vacío que solo contenga atributos puede analizarse siempre y cuando finalice con una etiqueta de cierre (por ejemplo, <row item_a="A" item_b="B"></row> es correcto, pero <row item_a="A" item_b="B" /> no lo es).

ClassifierRequest Estructura UpdateXML

Especifica un clasificador de XML que debe actualizarse.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • Classification: cadena UTF-8.

    Identificador del formato de datos que el clasificador correlaciona.

  • RowTag: cadena UTF-8.

    La etiqueta XML que designa el elemento que contiene cada registro en un documento XML que se está analizando. Tenga en cuenta que no puede identificar un elemento que se autocierra (cerrado con />). Un elemento de fila vacío que solo contenga atributos puede analizarse siempre y cuando finalice con una etiqueta de cierre (por ejemplo, <row item_a="A" item_b="B"></row> es correcto, pero <row item_a="A" item_b="B" /> no lo es).

CreateJsonClassifierRequest estructura

Especifica un clasificador de JSON para que CreateClassifier lo cree.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • JsonPathObligatorio: cadena UTF-8.

    UnaJsonPath cadena que define los datos JSON que el clasificador va a clasificar. AWS Glueadmite un subconjunto de JsonPath, como se describe en Escritura de clasificadores JsonPath personalizados.

UpdateJsonClassifierRequest estructura

Especifica un clasificador de JSON que debe actualizarse.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • JsonPath: cadena UTF-8.

    UnaJsonPath cadena que define los datos JSON que el clasificador va a clasificar. AWS Glueadmite un subconjunto de JsonPath, como se describe en Escritura de clasificadores JsonPath personalizados.

CreateCsvClassifierRequest estructura

Especifica un clasificador CSV personalizado para que CreateClassifier lo cree.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • Delimiter: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #10.

    Símbolo personalizado que indica qué elemento va a separar cada entrada de columna en la fila.

  • QuoteSymbol: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #10.

    Símbolo personalizado que indica qué elemento va a combinar contenido en un valor de columna único. Debe ser diferente al delimitador de columnas.

  • ContainsHeader: cadena UTF-8 (valores válidos: UNKNOWN | PRESENT | ABSENT).

    Indica si el archivo CSV contiene un encabezado.

  • Header: matriz de cadenas UTF-8.

    Lista de cadenas que representan nombres de columnas.

  • DisableValueTrimming: booleano.

    Indica que los valores no deben recortarse antes de identificar el tipo de valores de columna. El valor predeterminado es true.

  • AllowSingleColumn: booleano.

    Permite procesar los archivos que contienen una sola columna.

  • CustomDatatypeConfigured: booleano.

    Permite la configuración de tipos de datos personalizados.

  • CustomDatatypes: matriz de cadenas UTF-8.

    Crea una lista de tipos de datos personalizados compatibles.

UpdateCsvClassifierRequest estructura

Especifica un clasificador CSV personalizado para que se actualice.

Campos
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del clasificador.

  • Delimiter: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #10.

    Símbolo personalizado que indica qué elemento va a separar cada entrada de columna en la fila.

  • QuoteSymbol: cadena UTF-8, con 1 byte de largo como mínimo y 1 byte de largo como máximo, que coincide con el Custom string pattern #10.

    Símbolo personalizado que indica qué elemento va a combinar contenido en un valor de columna único. Debe ser distinto al delimitador de columnas.

  • ContainsHeader: cadena UTF-8 (valores válidos: UNKNOWN | PRESENT | ABSENT).

    Indica si el archivo CSV contiene un encabezado.

  • Header: matriz de cadenas UTF-8.

    Lista de cadenas que representan nombres de columnas.

  • DisableValueTrimming: booleano.

    Indica que los valores no deben recortarse antes de identificar el tipo de valores de columna. El valor predeterminado es true.

  • AllowSingleColumn: booleano.

    Permite procesar los archivos que contienen una sola columna.

  • CustomDatatypeConfigured: booleano.

    Especifica la configuración de los tipos de datos personalizados.

  • CustomDatatypes: matriz de cadenas UTF-8.

    Especifica una lista de tipos de datos personalizados compatibles.

Operaciones

CreateClassifier acción (Python: create_classifier)

Crea un clasificador en la cuenta del usuario. Puede ser GrokClassifier, XMLClassifier, JsonClassifier o CsvClassifier, en función de qué campo de la solicitud esté presente.

Solicitud
Respuesta
  • Sin parámetros de respuesta.

Errores
  • AlreadyExistsException

  • InvalidInputException

  • OperationTimeoutException

DeleteClassifier acción (Python: delete_classifier)

Quita un clasificador del catálogo de datos.

Solicitud
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre del clasificador que debe eliminarse.

Respuesta
  • Sin parámetros de respuesta.

Errores
  • EntityNotFoundException

  • OperationTimeoutException

GetClassifier acción (Python: get_classifier)

Recupera un clasificador por su nombre.

Solicitud
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre del clasificador que debe recuperarse.

Respuesta
  • Classifier: objeto Clasificador.

    El clasificador solicitado.

Errores
  • EntityNotFoundException

  • OperationTimeoutException

GetClassifiers acción (Python: get_classifiers)

Muestra todos los objetos de tipo clasificador del catálogo de datos.

Solicitud
  • MaxResults: número (entero) que no es inferior a 1 ni es superior a 1000.

    Tamaño de la lista que se devolverá (opcional).

  • NextToken: cadena UTF-8.

    Token de continuación opcional.

Respuesta
  • Classifiers: matriz de objetos Clasificador.

    La lista de objetos de tipo clasificador solicitada.

  • NextToken: cadena UTF-8.

    Token de continuación.

Errores
  • OperationTimeoutException

UpdateClassifier acción (Python: update_classifier)

Modifica un clasificador existente (GrokClassifier, XMLClassifier, JsonClassifier o CsvClassifier, en función del campo que esté presente).

Solicitud
Respuesta
  • Sin parámetros de respuesta.

Errores
  • InvalidInputException

  • VersionMismatchException

  • EntityNotFoundException

  • OperationTimeoutException