Crawls incrementais para adicionar novas partições em AWS Glue - AWS Glue

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Crawls incrementais para adicionar novas partições em AWS Glue

O crawler fornece uma opção para adicionar novas partições, resultando em crawls mais rápidos para conjuntos de dados incrementais com um esquema de tabela estável. O caso de uso típico é para crawlers programados, em que durante cada crawl, novas partições são adicionadas. Quando essa opção é ativada, ela executa primeiro um crawl completo no conjunto de dados de destino para permitir que o crawler registre o esquema inicial e a estrutura de partição. Durante um novo crawl, novas partições serão adicionadas às tabelas existentes somente quando os esquemas forem compatíveis. Nenhuma alteração no esquema é feita e nenhuma tabela nova será adicionada ao Catálogo de Dados após a primeira execução do rastreamento.

Você pode usar essa opção ao configurar uma fonte de dados do Amazon S3. Você pode definir o RecrawlPolicy with RecrawlBehavior como “Crawl_New_Folders” na CreateCrawler API ou o crawler subsequente é executado como Crawl novas subpastas somente no console.

Continuando com o exemplo em Como um crawler determina quando criar partições?, o diagrama a seguir mostra que os arquivos do mês de março foram adicionados.


          O diagrama a seguir mostra que os arquivos do mês de março foram adicionados.

Se você definir a opção RecrawlBehavior como “Crawl_New_Folders”, somente a nova pasta month=Mar e rastreada.

Notas e restrições

Quando essa opção está ativada, não é possível alterar os armazenamentos de dados de destino do Amazon S3 ao editar o crawler. Essa opção afeta determinadas definições de configuração do crawler. Quando ativada, ela força o comportamento de atualização e de exclusão do crawler para LOG. Isto significa que:

  • Se descobrir objetos nos quais os esquemas não são compatíveis, o rastreador não adicionará os objetos no catálogo de dados e adicionará esse detalhe como um registro no Logs. CloudWatch

  • Ele não atualizará objetos excluídos no Catálogo de dados.

Para ter mais informações, consulte Definir opções de configuração do crawler.