As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.
Amazon Kendra Rastreador da Web
Você pode usar o Amazon Kendra Web Crawler para rastrear e indexar páginas da Web.
Você só pode rastrear sites públicos ou internos de empresas que usam o protocolo de comunicação segura do Hypertext Transfer Protocol Secure (HTTPS). Um erro recebido durante o crawling pode indicar que o site está bloqueado para crawling. Para rastrear sites internos, você pode configurar um proxy da web. O proxy da web deve estar voltado para o público. Você também pode usar a autenticação para acessar e rastrear sites.
Ao selecionar sites para indexar, você precisa aderir à Política de uso aceitável da Amazon
nota
Abusar do Amazon Kendra Web Crawler para rastrear agressivamente sites ou páginas da web que você não possui não é considerado uso aceitável.
Amazon Kendra tem duas versões do web crawler conector. Os recursos suportados de cada versão incluem:
Amazon Kendra Conector Web Crawler v1.0/API WebCrawlerConfiguration
-
Proxy da Web
-
Filtros de inclusão/exclusão
Amazon Kendra Conector Web Crawler v2.0/API TemplateConfiguration
-
Mapeamentos de campos
-
Filtros de inclusão/exclusão
-
Sincronizações de conteúdo completas e incrementais
-
Proxy da Web
-
Autenticação básica, NTLM/Kerberos, SAML e de formulários para os sites
-
Nuvem privada virtual (VPC)
Importante
A criação do conector Web Crawler v2.0 não é suportada pelo. AWS CloudFormation Use o conector Web Crawler v1.0 se precisar de suporte. AWS CloudFormation
Para solucionar problemas do conector da fonte de dados do Amazon Kendra web crawler, consulte. Solucionar problemas de origens de dados