Amazon Kendra Rastreador da Web

Você pode usar o Amazon Kendra Web Crawler para rastrear e indexar páginas da Web.

Você só pode rastrear sites públicos ou internos de empresas que usam o protocolo de comunicação segura do Hypertext Transfer Protocol Secure (HTTPS). Um erro recebido durante o crawling pode indicar que o site está bloqueado para crawling. Para rastrear sites internos, você pode configurar um proxy da web. O proxy da web deve estar voltado para o público. Você também pode usar a autenticação para acessar e rastrear sites.

Ao selecionar sites para indexar, você precisa aderir à Política de uso aceitável da Amazon e a todos os outros termos da Amazon. Lembre-se de que você só deve usar o Amazon Kendra Web Crawler para indexar suas próprias páginas da Web ou páginas da Web que você tenha autorização para indexar. Para saber como impedir que o Amazon Kendra Web Crawler indexe seu (s) site (s), consulte. Configurando o arquivo do robots.txt para o Web Crawler do Amazon Kendra

nota

Abusar do Amazon Kendra Web Crawler para rastrear agressivamente sites ou páginas da web que você não possui não é considerado uso aceitável.

Amazon Kendra tem duas versões do web crawler conector. Os recursos suportados de cada versão incluem:

Amazon Kendra Conector Web Crawler v1.0/API WebCrawlerConfiguration

Proxy da Web
Filtros de inclusão/exclusão

Amazon Kendra Conector Web Crawler v2.0/API TemplateConfiguration

Mapeamentos de campos
Filtros de inclusão/exclusão
Sincronizações de conteúdo completas e incrementais
Proxy da Web
Autenticação básica, NTLM/Kerberos, SAML e de formulários para os sites
Nuvem privada virtual (VPC)

Importante

A criação do conector Web Crawler v2.0 não é suportada pelo. AWS CloudFormation Use o conector Web Crawler v1.0 se precisar de suporte. AWS CloudFormation

Para solucionar problemas do conector da fonte de dados do Amazon Kendra web crawler, consulte. Solucionar problemas de origens de dados

Tópicos

Atenção O Javascript está desativado ou não está disponível no seu navegador.

Para usar a documentação da AWS, o Javascript deve estar ativado. Consulte as páginas de Ajuda do navegador para obter instruções.

Convenções do documento

Usando Amazon VPC com Amazon S3

Amazon Kendra Conector Web Crawler v1.0