Rastreo gradual para agregar nuevas particiones en AWS Glue - AWS Glue

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Rastreo gradual para agregar nuevas particiones en AWS Glue

El rastreador ofrece una opción para agregar particiones nuevas, lo que resulta en rastreo más rápidos para conjuntos de datos progresivos con un esquema de tabla estable. El caso de uso típico es para rastreadores programados, en los que en cada rastreo se agregan nuevas particiones. Cuando esta opción esté activada, primero ejecutará un rastreo completo en el conjunto de datos de destino para permitir que el rastreador registre el esquema inicial y la estructura de partición. Durante un nuevo rastreo, se agregarán nuevas particiones a tablas existentes solo cuando los esquemas sean compatibles. No se realizan cambios en el esquema y no se agregarán tablas nuevas al catálogo de datos después de la primera ejecución de rastreo.

Puede utilizar esta opción al configurar una fuente de datos de Amazon S3. Puede configurar la RecrawlPolicy con RecrawlBehavior como “Crawl_New_Folders” en la API CreateCrawler o, Ejecuciones posteriores del rastreador como Rastrear solo nuevas subcarpetas en la consola.

Si retomamos el ejemplo en ¿Cómo determina un rastreador cuándo crear particiones?, el siguiente diagrama muestra que se han agregado archivos para el mes de marzo.


          El siguiente diagrama muestra que se han agregado archivos para el mes de marzo.

Si configura RecrawlBehavior como “Crawl_New_Folders”, solo se rastreará la nueva carpeta month=Mar.

Notas y restricciones

Cuando esta opción está activada, no puede cambiar los almacenes de datos de destino de Amazon S3 al editar el rastreador. Esta opción afecta a determinados valores de configuración del rastreador. Cuando está activada, fuerza el comportamiento de actualización y el comportamiento de eliminación del rastreador a LOG. Esto significa que:

  • Si descubre objetos en los que los esquemas no son compatibles, el rastreador no añadirá los objetos al catálogo de datos y añadirá este detalle como registro en CloudWatch los registros.

  • No actualizará los objetos eliminados en el Catálogo de datos.

Para obtener más información, consulte Opciones de configuración de rastreadores.