Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Amazon Kendra Rastreador web
Puede usar Amazon Kendra Web Crawler para rastrear e indexar páginas web.
Solo puede rastrear sitios web de cara al público o sitios web internos de la empresa que utilicen el protocolo de comunicación segura Hypertext Transfer Protocol Secure (HTTPS). Si recibe un error al rastrear un sitio web, es posible que el sitio web esté bloqueado para que no pueda rastrearse. Para rastrear sitios web internos, puede configurar un proxy web. El proxy web debe estar orientado al público. También puede utilizar la autenticación para acceder a sitios web y rastrearlos.
Al seleccionar los sitios web que se van a indexar, se debe respetar la Política de uso aceptable de Amazon
nota
El uso indebido de Amazon Kendra Web Crawler para rastrear agresivamente sitios web o páginas web que no son de su propiedad no se considera un uso aceptable.
Amazon Kendra tiene dos versiones del conector. web crawler Las características compatibles de cada versión incluyen:
Amazon Kendra Conector Web Crawler v1.0/API WebCrawlerConfiguration
-
Proxy de web
-
Filtros de inclusión/exclusión
Amazon Kendra Conector Web Crawler v2.0/API TemplateConfiguration
-
Asignaciones de campo
-
Filtros de inclusión/exclusión
-
Sincronizaciones de contenido completas e incrementales
-
Proxy de web
-
Autenticación básica, NTLM/Kerberos, SAML y mediante formularios para sus sitios web
-
Nube privada virtual (VPC)
importante
La creación de conectores Web Crawler v2.0 no es compatible con. AWS CloudFormation Utilice el conector Web Crawler v1.0 si necesita asistencia. AWS CloudFormation
Para solucionar problemas del conector de fuente de datos de su rastreador Amazon Kendra web, consulte. Solución de problemas con los orígenes de datos