Personalizar o comportamento do Crawler

Ao configurar um Crawler do AWS Glue, há várias opções para definir o comportamento do seu crawler.

Crawls incrementais: é possível configurar um crawler para executar crawls incrementais para adicionar somente novas partições ao esquema da tabela.
Índices de partição: um crawler cria índices de partição para destinos do Amazon S3 e do Delta Lake por padrão para fornecer uma pesquisa eficiente para partições específicas.
Acelerar o tempo do crawl usando eventos do Amazon S3: é possível configurar um crawler para usar eventos do Amazon S3 a fim de identificar as alterações entre dois crawls listando todos os arquivos da subpasta que disparou o evento em vez de listar o destino completo do Amazon S3 ou do Catálogo de dados.
Manipulação de alterações no esquema: você pode impedir que um crawler faça qualquer alteração no esquema existente. Você pode usar o AWS Management Console ou a API do AWS Glue para configurar como o seu crawler processa determinados tipos de alterações.
Um único esquema para vários caminhos do Amazon S3: você pode configurar um crawler para criar um único esquema para cada caminho do S3, se os dados forem compatíveis.
Localização da tabela e níveis de particionamento: a opção de crawler no nível da tabela fornece a flexibilidade de informar ao crawler onde as tabelas estão localizadas e como você deseja que as partições sejam criadas.
Limite da tabela: é possível especificar o número máximo de tabelas que o crawler tem permissão para criar especificando um limite da tabela.
Credenciais do AWS Lake Formation: é possível configurar um crawler para usar credenciais do Lake Formation para acessar um datastore do Amazon S3 ou uma tabela do Catálogo de dados com uma localização subjacente do Amazon S3 dentro da mesma Conta da AWS ou de outra Conta da AWS.

Para obter mais informações sobre como usar o console do AWS Glue para adicionar um crawler, consulte Configurar um crawler.

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Parâmetros definidos nas tabelas do Data Catalog pelo crawler

Programar crawls incrementais