Programar rastreos incrementales para añadir nuevas particiones - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Programar rastreos incrementales para añadir nuevas particiones

El rastreador ofrece una opción para agregar particiones nuevas, lo que resulta en rastreo más rápidos para conjuntos de datos progresivos con un esquema de tabla estable. El caso de uso típico es para rastreadores programados, en los que en cada rastreo se agregan nuevas particiones.

Cuando esta opción esté activada, primero ejecutará un rastreo completo en el conjunto de datos de destino para permitir que el rastreador registre el esquema inicial y la estructura de partición. Durante un nuevo rastreo, se agregarán nuevas particiones a tablas existentes solo cuando los esquemas sean compatibles. No se realizan cambios en el esquema ni se agregarán nuevas tablas al Catálogo de datos tras la primera ejecución del rastreo.

Esta opción se puede utilizar al configurar un origen de datos de Amazon S3. Puede configurar la amplitud RecrawlBehavior como Crawl_New_Folders en la RecrawlPolicy sección de la consola CreateCrawler API o en las siguientes ejecuciones del rastreador como Rastrear nuevas subcarpetas solo en la Paso 2: elegir orígenes de datos y clasificadores sección.

Para crear una programación para un rastreador, consulte. Programación de un rastreador

Si retomamos el ejemplo en ¿Cómo determina un rastreador cuándo crear particiones?, el siguiente diagrama muestra que se han agregado archivos para el mes de marzo.

El siguiente diagrama muestra que se han agregado archivos para el mes de marzo.

Si configura RecrawlBehavior como “Crawl_New_Folders”, solo se rastreará la nueva carpeta month=Mar.

Notas y restricciones

Cuando esta opción está activada, no puede cambiar los almacenes de datos de destino de Amazon S3 al editar el rastreador. Esta opción afecta a determinados valores de configuración del rastreador. Cuando está activada, fuerza el comportamiento de actualización y el comportamiento de eliminación del rastreador a LOG. Esto significa que:

  • Si descubre objetos en los que los esquemas no son compatibles, el rastreador no añadirá los objetos al catálogo de datos y añadirá este detalle como registro en los registros. CloudWatch

  • No actualizará los objetos eliminados en el Catálogo de datos.