Uso de un origen de datos de rastreador web - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Uso de un origen de datos de rastreador web

Puede usarAmazon Kendra Rastreador webpara rastrear e indexar páginas web. Para utilizar Web Crawler en la consola de, vaya a laAmazon Kendraconsola, selecciona tu índice y, a continuación, seleccionaOrígenes de datosdesde el menú de navegación para agregar Web Crawler.

Cuando utiliza el rastreador web para rastrear páginas web e indexarlas como documentos, especifica los sitios web que desea rastrear e indexar. Proporciona las URL iniciales o del punto de partida o las URL del mapa del sitio. Solo puede rastrear sitios web que utilicen el protocolo de comunicación segura, Hypertext Transfer Protocol Secure (HTTPS). Si recibe un error al rastrear un sitio web, podría ser que el sitio web esté bloqueado para que no se rastree.

Debe crear un índice antes de crear el origen de datos mediante el rastreador web. Para obtener más información, consulteCreación de un índice. Proporciona el ID del índice al crear el origen de datos.

Para utilizar el rastreador web, especifique la configuración y otra información en la consola o mediante elConfiguración de WebCrawlerobjeto. Proporciona las URL iniciales o del mapa del sitio web o sitios web que desea indexar.

Utilizas elConfiguración de URL de semillapara proporcionar una lista de URL iniciales y elegir si rastrear solo los nombres de host de sitios web, incluir subdominios, o incluir subdominios y otros dominios a los que se vinculan las páginas web. Utilizas elConfiguración de mapas del sitiopara proporcionar una lista de URL de mapa del sitio.

  • Laprofundidado número de niveles en un sitio web desde el nivel inicial hasta el rastreo. Por ejemplo, si un sitio web tiene 3 niveles (nivel de índice o nivel inicial de este ejemplo, nivel de secciones y nivel de subsecciones) y solo le interesa rastrear la información desde el nivel de índice hasta el nivel de secciones (niveles 0 a 1), puede establecer la profundidad en 1.

  • El número máximo de URL de una sola página web que se rastrean.

  • Tamaño máximo en MB de una página web para rastrear.

  • El número máximo de URL rastreadas por host de sitio web por minuto.

  • Patrones de expresiones regulares para incluir o excluir ciertas URL para rastrear.

  • La información del proxy web para conectarse y rastrear sitios web internos.

  • La información de autenticación para acceder y rastrear sitios web que requieren autenticación de usuario.

Puede extraer metaetiquetas HTML como campos mediante laEnriquecimiento de documentos personalizadosherramienta. Para obtener más información, consultePersonalización de metadatos de documentos durante el proceso de ingestión. Para ver un ejemplo de extracción de metaetiquetas HTML, consulteEjemplos de CDE.

También debe proporcionar el nombre de recurso de Amazon (ARN) de unIAMRol con los permisos necesarios. Proporciona el ARN de unIAMRol mediante elCreateDataSourceAPI. Para obtener más información acerca de los permisos, consulteIAMroles para fuentes de datos de rastreador web.

Al seleccionar sitios web para indexar, debe adherirse a laPolítica de uso aceptable de Amazony todos los demás términos de Amazon. Recuerda que solo debes usarAmazon KendraWeb Crawler para indexar sus propias páginas web o páginas web que tiene autorización para indexar. Para obtener más información acerca de cómo pararAmazon KendraWeb Crawler para indexar sus sitios web, consulteStopping (Deteniéndose)Amazon KendraWeb Crawler desde la indexación de su sitio web.

Autenticación del usuario

Antes de utilizar el rastreador web, debe comprobar si los sitios web que desea rastrear requieren autenticación para acceder a los sitios web. Si un sitio web requiere autenticación básica, proporciona al rastreador web el nombre de host del sitio web, el número de puerto y un secreto enAWS Secrets Managerque almacena sus credenciales de autenticación básicas de su nombre de usuario y contraseña.

Si utiliza elAmazon KendraLa consola de, puede elegir un secreto existente. Si utiliza elAmazon KendraAPI, deberá proporcionar el nombre de recurso de Amazon (ARN) de un secreto existente que contenga su nombre de usuario y contraseña. Puede crear un secreto enAWS Secrets Manager.

El secreto debe contener el nombre de usuario y la contraseña del sitio web que desee rastrear. A continuación se muestra la estructura JSON mínima que debe almacenarse en secreto.

{ "username": "user-name", "password": "password" }

Utilizas elAuthenticationConfigurationpara proporcionar el nombre de host del sitio web, el número de puerto del sitio web y el secreto que almacena sus credenciales de autenticación.

Proxy web

Puede utilizar un proxy web para conectarse a sitios web internos que desea rastrear.Amazon Kendraadmite la conexión a servidores proxy web respaldados por autenticación básica o puede conectarse sin autenticación. Proporciona el nombre de host del sitio web y el número de puerto. También puede proporcionar credenciales de proxy web utilizando un secreto enAWS Secrets Manager.

Utilizas elProxyConfigurationpara proporcionar el nombre de host del sitio web y el número de puerto. También puede proporcionar el secreto que almacena sus credenciales de proxy web.