Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Rastreos progresivos en AWS Glue
En un origen de datos de Amazon Simple Storage Service (Amazon S3), los rastreos progresivos solo rastrean carpetas que se han agregado desde la última ejecución del rastreador. Sin esta opción, el rastreador rastrea todo el conjunto de datos. Los rastreos progresivos pueden ahorrar tiempo y costos significativos. Para realizar un rastreo progresivo, puede establecer la opción Crawl new folders only (Rastrear solo carpetas nuevas) en la consola de AWS Glue o configurar la propiedad RecrawlPolicy
de la solicitud CreateCrawler
en la API.
Los rastreo progresivos son los más adecuados para conjuntos de datos progresivos con un esquema de tabla estable. El caso de uso típico es para rastreadores programados, en los que en cada rastreo se agregan nuevas particiones. Tenga en cuenta que no se agregarán tablas nuevas. Si retomamos el ejemplo en ¿Cómo determina un rastreador cuándo crear particiones?, el siguiente diagrama muestra que se han agregado archivos para el mes de marzo.

Si configura la opción Crawl new folders only (Rastrear solo carpetas nuevas), se rastreará sólo la nueva carpeta month=Mar
.
Notas y restricciones para rastreos progresivos
Tenga en cuenta la siguiente información adicional sobre rastreos progresivos:
-
La práctica recomendada para los rastreo progresivos es ejecutar primero un rastreo completo en el conjunto de datos de destino para permitir que el rastreador registre el esquema inicial y la estructura de partición.
-
Cuando esta opción está activada, no puede cambiar los almacenes de datos de destino de Amazon S3 al editar el rastreador.
-
Esta opción afecta a determinados valores de configuración del rastreador. Cuando está activada, fuerza el comportamiento de actualización y el comportamiento de eliminación del rastreador a
LOG
. Esto significa que:-
Si un rastreo progresivo detecta objetos con esquemas que son lo suficientemente diferentes del esquema registrado en el Catálogo de datos como para que el rastreador cree nuevas particiones, el rastreador ignorará los objetos y registrará el evento en CloudWatch los registros.
-
Si un rastreo progresivo detecta objetos eliminados, los ignora y no actualiza el Catálogo de datos.
Para obtener más información, consulte Opciones de configuración de rastreadores.
-
-
Si un rastreo progresivo detecta varias particiones o carpetas nuevas agregadas, la mayoría de ellas tiene que coincidir con el esquema registrado en el Catálogo de datos para permitir que el rastreador las agregue correctamente. De lo contrario, es posible que el rastreador no agregue las particiones porque hay demasiadas variedades de esquema.