Amazon Kendra Rastreador da Web - Amazon Kendra

As traduções são geradas por tradução automática. Em caso de conflito entre o conteúdo da tradução e da versão original em inglês, a versão em inglês prevalecerá.

Amazon Kendra Rastreador da Web

Você pode usar o Amazon Kendra Web Crawler para rastrear e indexar páginas da Web.

Você só pode rastrear sites públicos ou internos de empresas que usam o protocolo de comunicação segura do Hypertext Transfer Protocol Secure (HTTPS). Um erro recebido durante o crawling pode indicar que o site está bloqueado para crawling. Para rastrear sites internos, você pode configurar um proxy da web. O proxy da web deve estar voltado para o público. Você também pode usar a autenticação para acessar e rastrear sites.

Ao selecionar sites para indexar, você precisa aderir à Política de uso aceitável da Amazon e a todos os outros termos da Amazon. Lembre-se de que você só deve usar o Amazon Kendra Web Crawler para indexar suas próprias páginas da Web ou páginas da Web que você tenha autorização para indexar. Para saber como impedir que o Amazon Kendra Web Crawler indexe seu (s) site (s), consulte. Configurando o arquivo do robots.txt para o Web Crawler do Amazon Kendra

nota

Abusar do Amazon Kendra Web Crawler para rastrear agressivamente sites ou páginas da web que você não possui não é considerado uso aceitável.

Amazon Kendra tem duas versões do web crawler conector. Os recursos suportados de cada versão incluem:

Amazon Kendra Conector Web Crawler v1.0/API WebCrawlerConfiguration

  • Proxy da Web

  • Filtros de inclusão/exclusão

Amazon Kendra Conector Web Crawler v2.0/API TemplateConfiguration

  • Mapeamentos de campos

  • Filtros de inclusão/exclusão

  • Sincronizações de conteúdo completas e incrementais

  • Proxy da Web

  • Autenticação básica, NTLM/Kerberos, SAML e de formulários para os sites

  • Nuvem privada virtual (VPC)

Importante

A criação do conector Web Crawler v2.0 não é suportada pelo. AWS CloudFormation Use o conector Web Crawler v1.0 se precisar de suporte. AWS CloudFormation

Para solucionar problemas do conector da fonte de dados do Amazon Kendra web crawler, consulte. Solucionar problemas de origens de dados