Amazon Kendra Rastreador web - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Amazon Kendra Rastreador web

Puede usar Amazon Kendra Web Crawler para rastrear e indexar páginas web.

Solo puede rastrear sitios web de cara al público o sitios web internos de la empresa que utilicen el protocolo de comunicación segura Hypertext Transfer Protocol Secure (HTTPS). Si recibe un error al rastrear un sitio web, es posible que el sitio web esté bloqueado para que no pueda rastrearse. Para rastrear sitios web internos, puede configurar un proxy web. El proxy web debe estar orientado al público. También puede utilizar la autenticación para acceder a sitios web y rastrearlos.

Al seleccionar los sitios web que se van a indexar, se debe respetar la Política de uso aceptable de Amazon y todas las demás condiciones de Amazon. Recuerde que solo debe usar Amazon Kendra Web Crawler para indexar sus propias páginas web o páginas web para las que tenga autorización para indexar. Para obtener información sobre cómo impedir que Amazon Kendra Web Crawler indexe sus sitios web, consulte. Configuración del archivo robots.txt para el rastreador web de Amazon Kendra

nota

El uso indebido de Amazon Kendra Web Crawler para rastrear agresivamente sitios web o páginas web que no son de su propiedad no se considera un uso aceptable.

Amazon Kendra tiene dos versiones del conector. web crawler Las características compatibles de cada versión incluyen:

Amazon Kendra Conector Web Crawler v1.0/API WebCrawlerConfiguration

  • Proxy de web

  • Filtros de inclusión/exclusión

Amazon Kendra Conector Web Crawler v2.0/API TemplateConfiguration

  • Asignaciones de campo

  • Filtros de inclusión/exclusión

  • Sincronizaciones de contenido completas e incrementales

  • Proxy de web

  • Autenticación básica, NTLM/Kerberos, SAML y mediante formularios para sus sitios web

  • Nube privada virtual (VPC)

importante

La creación de conectores Web Crawler v2.0 no es compatible con. AWS CloudFormation Utilice el conector Web Crawler v1.0 si necesita asistencia. AWS CloudFormation

Para solucionar problemas del conector de fuente de datos de su rastreador Amazon Kendra web, consulte. Solución de problemas con los orígenes de datos