As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Crawls incrementais para adicionar novas partições em AWS Glue
O crawler fornece uma opção para adicionar novas partições, resultando em crawls mais rápidos para conjuntos de dados incrementais com um esquema de tabela estável. O caso de uso típico é para crawlers programados, em que durante cada crawl, novas partições são adicionadas. Quando essa opção é ativada, ela executa primeiro um crawl completo no conjunto de dados de destino para permitir que o crawler registre o esquema inicial e a estrutura de partição. Durante um novo crawl, novas partições serão adicionadas às tabelas existentes somente quando os esquemas forem compatíveis. Nenhuma alteração no esquema é feita e nenhuma tabela nova será adicionada ao Catálogo de Dados após a primeira execução do rastreamento.
Você pode usar essa opção ao configurar uma fonte de dados do Amazon S3. Você pode definir o RecrawlPolicy
with RecrawlBehavior
como “Crawl_New_Folders” na CreateCrawler
API ou o crawler subsequente é executado como Crawl novas subpastas somente no console.
Continuando com o exemplo em Como um crawler determina quando criar partições?, o diagrama a seguir mostra que os arquivos do mês de março foram adicionados.
Se você definir a opção RecrawlBehavior
como “Crawl_New_Folders”, somente a nova pasta month=Mar
e rastreada.
Notas e restrições
Quando essa opção está ativada, não é possível alterar os armazenamentos de dados de destino do Amazon S3 ao editar o crawler. Essa opção afeta determinadas definições de configuração do crawler. Quando ativada, ela força o comportamento de atualização e de exclusão do crawler para LOG
. Isto significa que:
-
Se descobrir objetos nos quais os esquemas não são compatíveis, o rastreador não adicionará os objetos no catálogo de dados e adicionará esse detalhe como um registro no Logs. CloudWatch
-
Ele não atualizará objetos excluídos no Catálogo de dados.
Para ter mais informações, consulte Definir opções de configuração do crawler.