La API del rastreador - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

La API del rastreador

La API de rastreadores describe los tipos de datos de los AWS Glue rastreadores, junto con la API para crear, eliminar, actualizar y enumerar los rastreadores.

Tipos de datos

Estructura de rastreador

Especifica un programa de rastreador que examina un origen de datos y utiliza clasificadores para intentar determinar su esquema. Si ejecuta la operación correctamente, el rastreador registra los metadatos relativos al origen de los datos en AWS Glue Data Catalog.

Campos
  • Name: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre del rastreador.

  • Role: cadena UTF-8.

    El nombre de recurso de Amazon (ARN) de un rol de IAM que se utiliza para obtener acceso a los recursos del cliente como, por ejemplo, los datos de Amazon Simple Storage Service (Amazon S3).

  • Targets: un objeto CrawlerTargets.

    Colección de objetivos del rastreo.

  • DatabaseName: cadena UTF-8.

    El nombre de la base de datos donde se almacena la salida del rastreador.

  • Description: cadena de descripción de un máximo de 2048 bytes de largo, que coincide con el URI address multi-line string pattern.

    Descripción del rastreador.

  • Classifiers: matriz de cadenas UTF-8.

    Una lista de cadenas UTF-8 que especifican los clasificadores personalizados que están asociados al rastreador.

  • RecrawlPolicy: un objeto RecrawlPolicy.

    Política que especifica si se debe rastrear de nuevo todo el conjunto de datos o si se deben rastrear sólo las carpetas que se agregaron desde la última ejecución del rastreador.

  • SchemaChangePolicy: un objeto SchemaChangePolicy.

    La política que especifica los comportamientos de actualización y eliminación del rastreador.

  • LineageConfiguration: un objeto LineageConfiguration.

    Configuración que especifica si el linaje de datos está habilitado para el rastreador.

  • State: cadena UTF-8 (valores válidos: READY | RUNNING | STOPPING).

    Indica si el rastreador se está ejecutando o si queda pendiente una ejecución.

  • TablePrefix: cadena UTF-8 de 128 bytes de largo como máximo.

    Prefijo añadido a los nombres de tablas que se crean.

  • Schedule: un objeto Programación.

    En rastreadores programados, el programa cuando se ejecuta el rastreador.

  • CrawlElapsedTime: número (largo).

    Si el rastreador se está ejecutando, contiene el tiempo transcurrido total desde que comenzó el último rastreo.

  • CreationTime: marca temporal.

    La hora de creación del rastreador.

  • LastUpdated: marca temporal.

    La hora de la última actualización del rastreador.

  • LastCrawl: un objeto LastCrawlInfo.

    Estado del último rastreo e información de error potencial si se produjo un error.

  • Version: número (largo).

    Versión del rastreador.

  • Configuration: cadena UTF-8.

    Información de configuración del rastreador. Esta cadena JSON con varias versiones permite a los usuarios especificar aspectos del comportamiento de un rastreador. Para obtener más información, consulte Establecimiento de opciones de configuración de rastreadores.

  • CrawlerSecurityConfiguration: cadena UTF-8 de 128 bytes de largo como máximo.

    El nombre de la estructura SecurityConfiguration que va a utilizar este rastreador.

  • LakeFormationConfiguration: un objeto LakeFormationConfiguration.

    Especifica si el rastreador debe usar AWS Lake Formation credenciales para el rastreador en lugar de las credenciales del rol de IAM.

Estructura de programación

Objeto de programación que usa una instrucción cron para programar un evento.

Campos
  • ScheduleExpression: cadena UTF-8.

    Expresión cron utilizada para especificar el programa (consulte Programaciones basadas en tiempo para trabajos y rastreadores). Por ejemplo, para ejecutar algo todos los días a las 12:15 UTC, especifique: cron(15 12 * * ? *).

  • State: cadena UTF-8 (valores válidos: SCHEDULED | NOT_SCHEDULED | TRANSITIONING).

    Estado del programa.

CrawlerTargets estructura

Especifica los almacenes de datos que deben rastrearse.

Campos
  • S3Targets: matriz de objetos S3Target.

    Especifica los destinos de Amazon Simple Storage Service (Amazon S3).

  • JdbcTargets: matriz de objetos JdbcTarget.

    Especifica los destinos de JDBC.

  • MongoDBTargets: matriz de objetos MongoDBTarget.

    Especifica los orígenes de Amazon DocumentDB o MongoDB.

  • DynamoDBTargets: matriz de objetos DynamoDBTarget.

    Especifica los destinos de Amazon DynamoDB.

  • CatalogTargets: matriz de objetos CatalogTarget.

    Especifica AWS Glue Data Catalog los objetivos.

  • DeltaTargets: matriz de objetos DeltaTarget.

    Especifica los destinos de almacenamiento de datos Delta.

  • IcebergTargets: matriz de objetos IcebergTarget.

    Especifica los destinos de almacenamiento de datos Apache Iceberg.

  • HudiTargets: matriz de objetos HudiTarget.

    Especifica los destinos de almacenamiento de datos Apache Hudi.

Estructura S3Target

Especifica un almacén de datos en Amazon Simple Storage Service (Amazon S3).

Campos
  • Path: cadena UTF-8.

    Ruta al destino de Amazon S3.

  • Exclusions: matriz de cadenas UTF-8.

    Lista de patrones glob utilizados para excluir elementos del rastreo. Para obtener más información, consulte la sección acerca de cómo Catalogar tablas con un rastreador.

  • ConnectionName: cadena UTF-8.

    Nombre de una conexión que permite a un trabajo o rastreador acceder a los datos de Amazon S3 dentro de un entorno de Amazon Virtual Private Cloud (Amazon VPC).

  • SampleSize: número (entero).

    Establece el número de archivos de cada carpeta que se van a rastrear al rastrear archivos de ejemplo en un conjunto de datos. Si no se establece, se rastrean todos los archivos. Un valor válido es un entero entre 1 y 249.

  • EventQueueArn: cadena UTF-8.

    Un ARN de Amazon SQS válido. Por ejemplo, arn:aws:sqs:region:account:sqs .

  • DlqEventQueueArn: cadena UTF-8.

    Un ARN de Amazon SQS válido con mensajes fallidos. Por ejemplo, arn:aws:sqs:region:account:deadLetterQueue .

DeltaCatalogTarget Estructura S3

Especifica un destino que escribe en una fuente de datos de Delta Lake del catálogo AWS Glue de datos.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #37.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys: matriz de cadenas UTF-8.

    Especifica la partición nativa mediante una secuencia de claves.

  • Table: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.

    El nombre de la tabla de la base de datos de escritura.

  • Database: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.

    El nombre de la base de datos de escritura.

  • AdditionalOptions: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #34.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #34.

    Especifica opciones de conexión adicionales para el conector.

  • SchemaChangePolicy: un objeto CatalogSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del rastreador.

DeltaDirectTarget Estructura S3

Especifica un destino que escribe en una fuente de datos de Delta Lake en Amazon S3.

Campos
  • Name: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #37.

    El nombre del destino de datos.

  • Inputs: Obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo y una cadena como máximo.

    Los nodos que son entradas para el destino de datos.

  • PartitionKeys: matriz de cadenas UTF-8.

    Especifica la partición nativa mediante una secuencia de claves.

  • Path: obligatorio: cadena UTF-8 que coincide con el Custom string pattern #34.

    La ruta de Amazon S3 del origen de datos de Delta Lake en la que desea escribir.

  • Compression: obligatorio: cadena UTF-8 (valores válidos: uncompressed="UNCOMPRESSED" | snappy="SNAPPY").

    Especifica la forma en que los datos se comprimen. Po lo general no es necesario si los datos tienen una extensión de archivo estándar. Los posibles valores son "gzip" y "bzip").

  • FormatObligatorio: cadena UTF-8 (valores válidos: json="JSON" | csv="CSV" | avro="AVRO" | orc="ORC" | parquet="PARQUET" | hudi="HUDI" | delta="DELTA").

    Especifica el formato de salida de datos para el destino.

  • AdditionalOptions: matriz de mapas de pares clave-valor.

    Cada clave es una cadena UTF-8 que coincide con el Custom string pattern #34.

    Cada valor es una cadena UTF-8 que coincide con el Custom string pattern #34.

    Especifica opciones de conexión adicionales para el conector.

  • SchemaChangePolicy: un objeto DirectSchemaChangePolicy.

    Una política que especifica los comportamientos de actualización del rastreador.

JdbcTarget estructura

Especifica un almacén de datos JDBC donde efectuar el rastreo.

Campos
  • ConnectionName: cadena UTF-8.

    Nombre de la conexión que se utilizará para establecer conexión con el destino de JDBC.

  • Path: cadena UTF-8.

    Ruta del destino de JDBC.

  • Exclusions: matriz de cadenas UTF-8.

    Lista de patrones glob utilizados para excluir elementos del rastreo. Para obtener más información, consulte la sección acerca de cómo Catalogar tablas con un rastreador.

  • EnableAdditionalMetadata: matriz de cadenas UTF-8.

    Especifique un valor de RAWTYPES o COMMENTS para habilitar metadatos adicionales en las respuestas de la tabla. RAWTYPES proporciona el tipo de datos de nivel nativo. COMMENTS proporciona comentarios asociados a una columna o tabla de la base de datos.

    Si no necesita metadatos adicionales, mantenga el campo vacío.

Estructura MongoDBTarget

Especifica un almacén de datos Amazon DocumentDB o MongoDB donde realizar el rastreo.

Campos
  • ConnectionName: cadena UTF-8.

    Nombre de la conexión que se utilizará para establecer conexión con el origen de Amazon DocumentDB o MongoDB.

  • Path: cadena UTF-8.

    Ruta de acceso del origen de Amazon DocumentDB o MongoDB (base de datos/recopilación).

  • ScanAll: booleano.

    Indica si se deben analizar todos los registros o si se deben muestrear filas de la tabla. Escanear todos los registros puede tardar mucho tiempo cuando la tabla no es una tabla de alto rendimiento.

    Un valor de true significa que hay que escanear todos los registros, mientras que un valor de false significa que se deben muestrear los registros. Si no se especifica ningún valor, el valor predeterminado es true.

Estructura DynamoDBTarget

Especifica una tabla de Amazon DynamoDB para rastrear.

Campos
  • Path: cadena UTF-8.

    Nombre de la tabla de DynamoDB donde efectuar el rastreo.

  • scanAll: booleano.

    Indica si se deben analizar todos los registros o si se deben muestrear filas de la tabla. Escanear todos los registros puede tardar mucho tiempo cuando la tabla no es una tabla de alto rendimiento.

    Un valor de true significa que hay que escanear todos los registros, mientras que un valor de false significa que se deben muestrear los registros. Si no se especifica ningún valor, el valor predeterminado es true.

  • scanRate: número (doble).

    El porcentaje de unidades de capacidad de lectura configuradas que utilizará el AWS Glue rastreador. Unidades de capacidad de lectura es un término definido por DynamoDB y es un valor numérico que actúa como limitador de velocidad del número de lecturas que se pueden realizar en esa tabla por segundo.

    Los valores válidos son nulos o un valor entre 0,1 y 1,5. Se utiliza un valor nulo cuando el usuario no proporciona un valor y el valor predeterminado es 0,5 de la unidad de capacidad de lectura configurada (en tablas aprovisionadas) o 0,25 de la unidad de capacidad de lectura máxima configurada (en tablas que utilizan el modo bajo demanda).

DeltaTarget estructura

Especifica un almacenamiento de datos Delta para rastrear una o más tablas Delta.

Campos
  • DeltaTables: matriz de cadenas UTF-8.

    Una lista de las rutas de Simple Storage Service (Amazon S3) hacia las tablas Delta.

  • ConnectionName: cadena UTF-8.

    Nombre de la conexión que se utilizará para establecer conexión con el destino de la tabla Delta.

  • WriteManifest: booleano.

    Especifica si se deben escribir los archivos de manifiesto en la ruta de la tabla Delta.

  • CreateNativeDeltaTable: booleano.

    Especifica si el rastreador creará tablas nativas para permitir la integración con los motores de consulta que permiten consultar directamente el registro de transacciones de Delta.

IcebergTarget estructura

Especifica un origen de datos de Apache Iceberg en la que se almacenan las tablas de Iceberg en Amazon S3.

Campos
  • Paths: matriz de cadenas UTF-8.

    Una o más Amazon S3 rutas que contienen carpetas de metadatos de Iceberg comos3://bucket/prefix.

  • ConnectionName: cadena UTF-8.

    Nombre de la conexión que se utilizará para establecer conexión con el destino de Iceberg.

  • Exclusions: matriz de cadenas UTF-8.

    Lista de patrones glob utilizados para excluir elementos del rastreo. Para obtener más información, consulte la sección acerca de cómo Catalogar tablas con un rastreador.

  • MaximumTraversalDepth: número (entero).

    La profundidad máxima de las Amazon S3 rutas que el rastreador puede recorrer para descubrir la carpeta de metadatos de Iceberg en su ruta. Amazon S3 Se utiliza para limitar el tiempo de ejecución del rastreador.

HudiTarget estructura

Especifica un origen de datos Apache Hudi.

Campos
  • Paths: matriz de cadenas UTF-8.

    Matriz de cadenas de Amazon S3 ubicación para Hudi, cada una de las cuales indica la carpeta raíz en la que residen los archivos de metadatos de una tabla Hudi. La carpeta Hudi puede estar ubicada en una carpeta secundaria de la carpeta raíz.

    El rastreador escaneará todas las carpetas situadas debajo de una ruta para una carpeta Hudi.

  • ConnectionName: cadena UTF-8.

    Nombre de la conexión que se utilizará para establecer conexión con el destino de Hudi. Si sus archivos Hudi están almacenados en buckets que requieren autorización de VPC, puede configurar sus propiedades de conexión aquí.

  • Exclusions: matriz de cadenas UTF-8.

    Lista de patrones glob utilizados para excluir elementos del rastreo. Para obtener más información, consulte la sección acerca de cómo Catalogar tablas con un rastreador.

  • MaximumTraversalDepth: número (entero).

    La profundidad máxima de las Amazon S3 rutas que el rastreador puede recorrer para descubrir la carpeta de metadatos de Hudi en su ruta. Amazon S3 Se utiliza para limitar el tiempo de ejecución del rastreador.

CatalogTarget estructura

Especifica un AWS Glue Data Catalog objetivo.

Campos
  • DatabaseName: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre de la base de datos que se va a sincronizar.

  • Tables: obligatorio: matriz de cadenas UTF-8, con una cadena como mínimo.

    Lista de las tablas que se van a sincronizar.

  • ConnectionName: cadena UTF-8.

    El nombre de la conexión de una tabla del Catálogo de datos respaldada por Amazon S3 que se rastreará al utilizar un tipo de conexión Catalog emparejado con un tipo de conexión NETWORK.

  • EventQueueArn: cadena UTF-8.

    Un ARN de Amazon SQS válido. Por ejemplo, arn:aws:sqs:region:account:sqs .

  • DlqEventQueueArn: cadena UTF-8.

    Un ARN de Amazon SQS válido con mensajes fallidos. Por ejemplo, arn:aws:sqs:region:account:deadLetterQueue .

CrawlerMetrics estructura

Métricas de un rastreador especificado.

Campos
  • CrawlerName: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre del rastreador.

  • TimeLeftSeconds: número (doble), cero como máximo.

    Tiempo estimado que queda para completar un rastreo que se está ejecutando.

  • StillEstimating: booleano.

    True si el rastreador sigue calculando cuánto tiempo se tardará en completar esta ejecución.

  • LastRuntimeSeconds: número (doble), cero como máximo.

    Duración de la ejecución más reciente del rastreador indicada en segundos.

  • MedianRuntimeSeconds: número (doble), cero como máximo.

    Duración media de las ejecuciones de este rastreador indicada en segundos.

  • TablesCreated: número (entero), cero como máximo.

    Número de tablas creadas por este rastreador.

  • TablesUpdated: número (entero), cero como máximo.

    Número de tablas actualizadas por este rastreador.

  • TablesDeleted: número (entero), cero como máximo.

    Número de tablas eliminadas por este rastreador.

CrawlerHistory estructura

Contiene la información de la ejecución de un rastreador.

Campos
  • CrawlId: cadena UTF-8.

    Identificador UUID de cada rastreo.

  • State: cadena UTF-8 (valores válidos: RUNNING | COMPLETED | FAILED | STOPPED).

    El estado del rastreo.

  • StartTime: marca temporal.

    La fecha y hora en las que se inició el rastreo.

  • EndTime: marca temporal.

    La fecha y hora en las que terminó el rastreo.

  • Summary: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Un resumen de la ejecución del rastreo específico en JSON. Contiene las tablas y particiones del catálogo que se agregaron, actualizaron o eliminaron.

  • ErrorMessage: cadena de descripción de un máximo de 2048 bytes de largo, que coincide con el URI address multi-line string pattern.

    Si se produjo un error, el mensaje de error asociado con el rastreo.

  • LogGroup: cadena UTF-8, con 1 byte de largo como mínimo y 512 bytes de largo como máximo, que coincide con el Log group string pattern.

    El grupo de registros asociado al rastreo.

  • LogStream: cadena UTF-8, con 1 byte de largo como mínimo y 512 bytes de largo como máximo, que coincide con el Log-stream string pattern.

    El flujo de registros asociado al rastreo.

  • MessagePrefix: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El prefijo de un CloudWatch mensaje sobre este rastreo.

  • DPUHour: número (doble), cero como máximo.

    El número de unidades de procesamiento de datos (DPU) utilizadas en horas para el rastreo.

CrawlsFilter estructura

Una lista de campos, comparadores y valores que se pueden utilizar para filtrar las ejecuciones de rastreador de un rastreador específico.

Campos
  • FieldName: cadena UTF-8 (valores válidos: CRAWL_ID | STATE | START_TIME | END_TIME | DPU_HOUR).

    Una clave que se utiliza para filtrar las ejecuciones del rastreador para un rastreador específico. Los valores válidos para cada uno de los nombres de campo son:

    • CRAWL_ID: cadena que representa el identificador de UUID de un rastreo.

    • STATE: una cadena de caracteres que representa el estado del rastreo.

    • START_TIME y END_TIME: la marca de tiempo Epoch en milisegundos.

    • DPU_HOUR: el número de horas de unidad de procesamiento de datos (DPU) utilizadas para el rastreo.

  • FilterOperator: cadena UTF-8 (valores válidos: GT | GE | LT | LE | EQ | NE).

    Un comparador definido que opera con el valor. Los operadores disponibles son:

    • GT: mayor que.

    • GE: mayor o igual que.

    • LT: menor que.

    • LE: menor o igual que.

    • EQ: igual que.

    • NE: no es igual que.

  • FieldValue: cadena UTF-8.

    El valor proporcionado para la comparación en el campo de rastreo.

SchemaChangePolicy estructura

Una política que especifica los comportamientos de actualización y eliminación del rastreador.

Campos
  • UpdateBehavior: cadena UTF-8 (valores válidos: LOG | UPDATE_IN_DATABASE).

    Comportamiento de actualización cuando el rastreador encuentra un esquema cambiado.

  • DeleteBehavior: cadena UTF-8 (valores válidos: LOG | DELETE_FROM_DATABASE | DEPRECATE_IN_DATABASE).

    Comportamiento de eliminación cuando el rastreador encuentra un objeto eliminado.

LastCrawlInfo estructura

Información de estado y de error sobre el rastreo más reciente.

Campos
  • Status: cadena UTF-8 (valores válidos: SUCCEEDED | CANCELLED | FAILED).

    Estado del último rastreo.

  • ErrorMessage: cadena de descripción de un máximo de 2048 bytes de largo, que coincide con el URI address multi-line string pattern.

    Si se produjo un error, la información de error sobre el último rastreo.

  • LogGroup: cadena UTF-8, con 1 byte de largo como mínimo y 512 bytes de largo como máximo, que coincide con el Log group string pattern.

    Grupo de registros del último rastreo.

  • LogStream: cadena UTF-8, con 1 byte de largo como mínimo y 512 bytes de largo como máximo, que coincide con el Log-stream string pattern.

    Flujo de registros del último rastreo.

  • MessagePrefix: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Prefijo de un mensaje sobre este rastreo.

  • StartTime: marca temporal.

    Hora en la que se inició el rastreo.

RecrawlPolicy estructura

Al rastrear un origen de datos de Amazon S3 después de completar el primer rastreo, especifica si se debe rastrear de nuevo todo el conjunto de datos o si se deben rastrear sólo las carpetas que se agregaron desde la última ejecución del rastreador. Para obtener más información, consulte Rastreo progresivo en AWS Glue en la guía para desarrolladores.

Campos
  • RecrawlBehavior: cadena UTF-8 (valores válidos: CRAWL_EVERYTHING | CRAWL_NEW_FOLDERS_ONLY | CRAWL_EVENT_MODE).

    Especifica si se debe rastrear de nuevo todo el conjunto de datos o si se deben rastrear sólo las carpetas que se agregaron desde la última ejecución del rastreador.

    Un valor de CRAWL_EVERYTHING especifica volver a rastrear todo el conjunto de datos.

    Un valor de CRAWL_NEW_FOLDERS_ONLY especifica el rastreo sólo de carpetas que se agregaron desde la última ejecución del rastreador.

    Un valor de CRAWL_EVENT_MODE especifica rastrear solo los cambios identificados por los eventos de Amazon S3.

LineageConfiguration estructura

Especifica los parámetros de configuración del linaje de datos para el rastreador.

Campos
  • CrawlerLineageSettings: cadena UTF-8 (valores válidos: ENABLE | DISABLE).

    Especifica si el linaje de datos está habilitado para el rastreador. Los valores válidos son:

    • HABILITAR: habilita el linaje de datos para el rastreador

    • DESHABILITAR: deshabilita el linaje de datos para el rastreador

LakeFormationConfiguration estructura

Especifica los parámetros de AWS Lake Formation configuración del rastreador.

Campos
  • UseLakeFormationCredentials: booleano.

    Especifica si se van a utilizar AWS Lake Formation las credenciales del rastreador en lugar de las credenciales del rol de IAM.

  • AccountId: cadena UTF-8, no más de 12 bytes de largo.

    Necesaria para rastreos de cuentas cruzadas. Para los mismos rastreos de cuentas que los datos de destino, esto se puede dejar como nulo.

Operaciones

CreateCrawler acción (Python: create_crawler)

Crea un nuevo rastreador con objetivos, rol, configuración y programación opcional especificados. Se debe especificar al menos un objetivo de rastreo, en el campo s3Targets, el campo jdbcTargets o el campo DynamoDBTargets.

Solicitud
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre del rastreador nuevo.

  • RoleObligatorio: cadena UTF-8.

    El rol de IAM o nombre de recursos de Amazon (ARN) de un rol de IAM que el nuevo rastreador utiliza para obtener acceso a recursos de los clientes.

  • DatabaseName: cadena UTF-8.

    La AWS Glue base de datos en la que se escriben los resultados, como:. arn:aws:daylight:us-east-1::database/sometable/*

  • Description: cadena de descripción de un máximo de 2048 bytes de largo, que coincide con el URI address multi-line string pattern.

    Descripción del nuevo rastreador.

  • Targets: obligatorio: objeto CrawlerTargets.

    Lista de colecciones de objetivos donde realizar el rastreo.

  • Schedule: cadena UTF-8.

    Expresión cron utilizada para especificar el programa (consulte Programaciones basadas en tiempo para trabajos y rastreadores). Por ejemplo, para ejecutar algo todos los días a las 12:15 UTC, especifique: cron(15 12 * * ? *).

  • Classifiers: matriz de cadenas UTF-8.

    Lista de clasificadores personalizados que el usuario ha registrado. De forma predeterminada, todos los clasificadores integrados se incluyen en un rastreo, pero estos clasificadores personalizados siempre anulan los clasificadores predeterminados de una determinada clasificación.

  • TablePrefix: cadena UTF-8 de 128 bytes de largo como máximo.

    Prefijo de tabla utilizado para las tablas de catálogo que se crean.

  • SchemaChangePolicy: un objeto SchemaChangePolicy.

    La política para el comportamiento de actualización y eliminación del rastreador.

  • RecrawlPolicy: un objeto RecrawlPolicy.

    Política que especifica si se debe rastrear de nuevo todo el conjunto de datos o si se deben rastrear sólo las carpetas que se agregaron desde la última ejecución del rastreador.

  • LineageConfiguration: un objeto LineageConfiguration.

    Especifica los parámetros de configuración del linaje de datos para el rastreador.

  • LakeFormationConfiguration: un objeto LakeFormationConfiguration.

    Especifica los ajustes de AWS Lake Formation configuración del rastreador.

  • Configuration: cadena UTF-8.

    Información de configuración del rastreador. Esta cadena JSON con varias versiones permite a los usuarios especificar aspectos del comportamiento de un rastreador. Para obtener más información, consulte Establecimiento de opciones de configuración de rastreadores.

  • CrawlerSecurityConfiguration: cadena UTF-8 de 128 bytes de largo como máximo.

    El nombre de la estructura SecurityConfiguration que va a utilizar este rastreador.

  • Tags: matriz de mapas de pares de clave-valor, con 50 pares como máximo.

    Cada clave es una cadena UTF-8 con una longitud de entre 1 y 128 bytes.

    Cada valor es una cadena UTF-8 que no tiene más de 256 bytes de largo.

    Etiquetas que se van a utilizar con esta solicitud de rastreador. Puede utilizar etiquetas para limitar el acceso al rastreador. Para obtener más información sobre las etiquetas AWS Glue, consulte AWS Etiquetas incluidas AWS Glue en la guía para desarrolladores.

Respuesta
  • Sin parámetros de respuesta.

Errores
  • InvalidInputException

  • AlreadyExistsException

  • OperationTimeoutException

  • ResourceNumberLimitExceededException

DeleteCrawler acción (Python: delete_crawler)

Elimina un rastreador específico del AWS Glue Data Catalog, a menos que el estado del rastreador sea. RUNNING

Solicitud
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del rastreador que se eliminará.

Respuesta
  • Sin parámetros de respuesta.

Errores
  • EntityNotFoundException

  • CrawlerRunningException

  • SchedulerTransitioningException

  • OperationTimeoutException

GetCrawler acción (Python: get_crawler)

Recupera metadatos para un rastreador especificado.

Solicitud
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del rastreador para el que se recuperarán los metadatos.

Respuesta
  • Crawler: un objeto Rastreador.

    Los metadatos para el rastreador especificado.

Errores
  • EntityNotFoundException

  • OperationTimeoutException

GetCrawlers acción (Python: get_crawlers)

Recupera metadatos para todos los rastreadores definidos en la cuenta del cliente.

Solicitud
  • MaxResults: número (entero) que no es inferior a 1 ni es superior a 1000.

    Número de rastreadores que se devolverá en cada llamada.

  • NextToken: cadena UTF-8.

    Token de continuación, si se trata de una solicitud de continuidad.

Respuesta
  • Crawlers: matriz de objetos Rastreador.

    Lista de metadatos de rastreador.

  • NextToken: cadena UTF-8.

    Token de continuación, si la lista devuelta no ha llegado al final de los metadatos definidos en esta cuenta de cliente.

Errores
  • OperationTimeoutException

GetCrawlerMetrics acción (Python: get_crawler_metrics)

Recupera métricas sobre rastreadores especificados.

Solicitud
  • CrawlerNameList: matriz de cadenas UTF-8, con 100 cadenas como máximo.

    Lista de los nombres de rastreadores sobre los que se recuperarán métricas.

  • MaxResults: número (entero) que no es inferior a 1 ni es superior a 1000.

    Tamaño máximo de una lista que se devolverá.

  • NextToken: cadena UTF-8.

    Token de continuación si se trata de una llamada de continuidad.

Respuesta
  • CrawlerMetricsList: matriz de objetos CrawlerMetrics.

    Lista de métricas para el rastreador especificado.

  • NextToken: cadena UTF-8.

    Token de continuación, si la lista devuelta no contiene la última métrica disponible.

Errores
  • OperationTimeoutException

UpdateCrawler acción (Python: update_crawler)

Actualiza un rastreador. Si un rastreador se está ejecutando, debe detenerlo utilizando StopCrawler antes de actualizarlo.

Solicitud
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre del rastreador nuevo.

  • Role: cadena UTF-8.

    El rol de IAM o nombre de recurso de Amazon (ARN) de un rol de IAM que utiliza el nuevo rastreador para acceder a los recursos del cliente.

  • DatabaseName: cadena UTF-8.

    La AWS Glue base de datos donde se almacenan los resultados, como:. arn:aws:daylight:us-east-1::database/sometable/*

  • Description: cadena UTF-8 con un máximo de 2048 bytes de largo, que coincide con el URI address multi-line string pattern.

    Descripción del nuevo rastreador.

  • Targets: un objeto CrawlerTargets.

    Lista de objetivos del rastreo.

  • Schedule: cadena UTF-8.

    Expresión cron utilizada para especificar el programa (consulte Programaciones basadas en tiempo para trabajos y rastreadores). Por ejemplo, para ejecutar algo todos los días a las 12:15 UTC, especifique: cron(15 12 * * ? *).

  • Classifiers: matriz de cadenas UTF-8.

    Lista de clasificadores personalizados que el usuario ha registrado. De forma predeterminada, todos los clasificadores integrados se incluyen en un rastreo, pero estos clasificadores personalizados siempre anulan los clasificadores predeterminados de una determinada clasificación.

  • TablePrefix: cadena UTF-8 de 128 bytes de largo como máximo.

    Prefijo de tabla utilizado para las tablas de catálogo que se crean.

  • SchemaChangePolicy: un objeto SchemaChangePolicy.

    La política para el comportamiento de actualización y eliminación del rastreador.

  • RecrawlPolicy: un objeto RecrawlPolicy.

    Política que especifica si se debe rastrear de nuevo todo el conjunto de datos o si se deben rastrear sólo las carpetas que se agregaron desde la última ejecución del rastreador.

  • LineageConfiguration: un objeto LineageConfiguration.

    Especifica los parámetros de configuración del linaje de datos para el rastreador.

  • LakeFormationConfiguration: un objeto LakeFormationConfiguration.

    Especifica los ajustes de AWS Lake Formation configuración del rastreador.

  • Configuration: cadena UTF-8.

    Información de configuración del rastreador. Esta cadena JSON con varias versiones permite a los usuarios especificar aspectos del comportamiento de un rastreador. Para obtener más información, consulte Establecimiento de opciones de configuración de rastreadores.

  • CrawlerSecurityConfiguration: cadena UTF-8 de 128 bytes de largo como máximo.

    El nombre de la estructura SecurityConfiguration que va a utilizar este rastreador.

Respuesta
  • Sin parámetros de respuesta.

Errores
  • InvalidInputException

  • VersionMismatchException

  • EntityNotFoundException

  • CrawlerRunningException

  • OperationTimeoutException

StartCrawler acción (Python: start_crawler)

Comienza un rastreo utilizando el rastreo especificado, independientemente de lo que esté programado. Si el rastreador ya se está ejecutando, devuelve un. CrawlerRunningException

Solicitud
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre del rastreador que se iniciará.

Respuesta
  • Sin parámetros de respuesta.

Errores
  • EntityNotFoundException

  • CrawlerRunningException

  • OperationTimeoutException

StopCrawler acción (Python: stop_crawler)

Si el rastreador especificado está en ejecución, se detiene el rastreo.

Solicitud
  • Name: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    Nombre del rastreador que se detendrá.

Respuesta
  • Sin parámetros de respuesta.

Errores
  • EntityNotFoundException

  • CrawlerNotRunningException

  • CrawlerStoppingException

  • OperationTimeoutException

BatchGetCrawlers acción (Python: batch_get_crawlers)

Devuelve la lista de metadatos de recursos de una determinada lista de nombres de rastreadores. Después de llamar a la operación ListCrawlers, puede llamar a esta operación para obtener acceso a los datos a los que ha concedido permisos. Esta operación admite todos los permisos de IAM, incluidas las condiciones de permisos que utilizan etiquetas.

Solicitud
  • CrawlerNamesObligatorio: matriz de cadenas UTF-8, con 100 cadenas como máximo.

    Una lista de nombres de rastreadores, que pueden ser los nombres devueltos en la operación ListCrawlers.

Respuesta
  • Crawlers: matriz de objetos Rastreador.

    Lista de definiciones de rastreadores.

  • CrawlersNotFound: matriz de cadenas UTF-8, con 100 cadenas como máximo.

    Una lista de nombres de rastreadores que no se han encontrado.

Errores
  • InvalidInputException

  • OperationTimeoutException

ListCrawlers acción (Python: list_crawlers)

Recupera los nombres de todos los recursos del rastreador de esta AWS cuenta o los recursos con la etiqueta especificada. Esta operación permite ver qué recursos están disponibles en la cuenta y sus nombres.

Esta operación toma el campo Tags opcional, que se puede utilizar como filtro en la respuesta para que los recursos etiquetados se devuelvan agrupados. Si decide utilizar el filtrado de etiquetas, solo se devolverán los recursos con la etiqueta especificada.

Solicitud
  • MaxResults: número (entero) que no es inferior a 1 ni es superior a 1000.

    Tamaño máximo de una lista que se devolverá.

  • NextToken: cadena UTF-8.

    Token de continuación, si se trata de una solicitud de continuidad.

  • Tags: matriz de mapas de pares de clave-valor, con 50 pares como máximo.

    Cada clave es una cadena UTF-8 con una longitud de entre 1 y 128 bytes.

    Cada valor es una cadena UTF-8 que no tiene más de 256 bytes de largo.

    Especifica que se devuelvan solamente los recursos etiquetados.

Respuesta
  • CrawlerNames: matriz de cadenas UTF-8, con 100 cadenas como máximo.

    Nombres de todos los rastreadores de la cuenta o de los rastreadores con las etiquetas especificadas.

  • NextToken: cadena UTF-8.

    Token de continuación, si la lista devuelta no contiene la última métrica disponible.

Errores
  • OperationTimeoutException

ListCrawls acción (Python: list_crawls)

Devuelve todos los rastreos de un rastreador especificado. Devuelve solo los rastreos que se han producido desde la fecha de lanzamiento de la función de historial del rastreador y solo conserva hasta 12 meses de rastreo. No se devolverán los rastreos más antiguos.

Puede utilizar esta API para:

  • Recupera todos los rastreos de un rastreador especificado.

  • Recupera todos los rastreos de un rastreador específico dentro de un recuento limitado.

  • Recupera todos los rastreos de un rastreador específico en un rango de tiempo específico.

  • Recupera todos los rastreos de un rastreador especificado con un estado, un ID de rastreo o un valor de hora de DPU en particular.

Solicitud
  • CrawlerName: obligatorio: cadena UTF-8, con 1 byte de largo como mínimo y 255 bytes de largo como máximo, que coincide con el Single-line string pattern.

    El nombre del rastreador cuyo valor desea recuperar.

  • MaxResults: número (entero) que no es inferior a 1 ni es superior a 1000.

    El número máximo de resultados que devolver. El valor predeterminado es 20 y el máximo es 100.

  • Filters: matriz de objetos CrawlsFilter.

    Filtra los rastreos de acuerdo con los criterios especificados en una lista de objetos de CrawlsFilter.

  • NextToken: cadena UTF-8.

    Token de continuación si se trata de una llamada de continuidad.

Respuesta
  • Crawls: matriz de objetos CrawlerHistory.

    Una lista de objetos de CrawlerHistory que representan las ejecuciones de rastreo que cumplen sus criterios.

  • NextToken: cadena UTF-8.

    Token de continuación para paginar la lista de tokens obtenida; se devuelve si el segmento actual de la lista no es el último.

Errores
  • EntityNotFoundException

  • OperationTimeoutException

  • InvalidInputException