Amazon Kendra Conector Web Crawler v2.0 - Amazon Kendra

Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.

Amazon Kendra Conector Web Crawler v2.0

Puede utilizar Amazon Kendra Web Crawler para rastrear e indexar páginas web.

Solo puede rastrear sitios web de cara al público o sitios web internos de la empresa que utilicen el protocolo de comunicación segura Hypertext Transfer Protocol Secure (HTTPS). Si recibe un error al rastrear un sitio web, es posible que el sitio web esté bloqueado para que no pueda rastrearse. Para rastrear sitios web internos, puede configurar un proxy web. El proxy web debe estar orientado al público. También puede utilizar la autenticación para acceder a sitios web y rastrearlos.

Amazon Kendra Web Crawler v2.0 utiliza el paquete de rastreadores web Selenium y un controlador Chromium. Amazon Kendra actualiza automáticamente la versión de Selenium y el controlador Chromium mediante la integración continua (CI).

Al seleccionar los sitios web que se van a indexar, se debe respetar la Política de uso aceptable de Amazon y todas las demás condiciones de Amazon. Recuerde que solo debe usar Amazon Kendra Web Crawler para indexar sus propias páginas web o páginas web para las que tenga autorización para indexar. Para obtener información sobre cómo impedir que Amazon Kendra Web Crawler indexe sus sitios web, consulte. Configuración del archivo robots.txt para el rastreador web de Amazon Kendra . El uso indebido de Amazon Kendra Web Crawler para rastrear agresivamente sitios web o páginas web que no son de su propiedad no se considera un uso aceptable.

Para solucionar problemas del conector de fuente de datos del rastreador Amazon Kendra web, consulte. Solución de problemas con los orígenes de datos

nota

El conector Web Crawler v2.0 no admite el rastreo de listas de sitios web desde depósitos cifrados. AWS KMS Amazon S3 Solo admite el cifrado del lado del servidor con claves administradas. Amazon S3

importante

La creación de conectores Web Crawler v2.0 no es compatible con. AWS CloudFormation Utilice el conector Web Crawler v1.0 si necesita asistencia. AWS CloudFormation

Características admitidas

  • Asignaciones de campo

  • Filtros de inclusión/exclusión

  • Sincronizaciones de contenido completas e incrementales

  • Proxy de web

  • Autenticación básica, NTLM/Kerberos, SAML y mediante formularios para sus sitios web

  • Nube privada virtual (VPC)

Requisitos previos

Antes de poder utilizarlos Amazon Kendra para indexar tus sitios web, comprueba los detalles de tus sitios web y AWS cuentas.

Para sus sitios web, asegúrese de que:

  • Copie las URL semilla o de mapa del sitio de los sitios web que desea indexar. Puede almacenar las URL en un archivo de texto y subirlo a un bucket Amazon S3 . Cada URL del archivo de texto debe estar formateada en una línea independiente. Si quieres almacenar tus mapas de sitio en un Amazon S3 depósito, asegúrate de haber copiado el XML del mapa del sitio y de haberlo guardado en un archivo XML. También puede agrupar varios archivos XML de mapa del sitio en un archivo ZIP.

    nota

    (local o en el servidor) Amazon Kendra comprueba si la información de punto final incluida AWS Secrets Manager es la misma que la información de punto final especificada en los detalles de configuración de la fuente de datos. Esto ayuda a evitar el problema del suplente confuso, que es un problema de seguridad en el que un usuario no tiene permiso para realizar una acción, pero utiliza Amazon Kendra como proxy para acceder al secreto configurado y realizar la acción. Si más adelante cambia la información de punto de conexión, debe crear un nuevo secreto para sincronizar esta información.

  • Para los sitios web que requieren autenticación básica, NTLM o Kerberos:

    • Anote las credenciales de autenticación de su sitio web, que incluyen un nombre de usuario y una contraseña.

      nota

      Amazon Kendra Web Crawler v2.0 admite el protocolo de autenticación NTLM, que incluye el cifrado de contraseñas, y el protocolo de autenticación Kerberos, que incluye el cifrado de contraseñas.

  • Para los sitios web que requieren autenticación mediante SAML o mediante formulario de inicio de sesión:

    • Anote las credenciales de autenticación de su sitio web, que incluyen un nombre de usuario y una contraseña.

    • Se copiaron los XPaths (lenguaje de rutas XML) del campo de nombre de usuario (y el botón de nombre de usuario si se utiliza SAML), el campo y el botón de contraseña, y se copió la URL de la página de inicio de sesión. Puede encontrar los XPaths de los elementos utilizando las herramientas para desarrolladores de su navegador web. Los XPaths suelen seguir este formato: //tagname[@Attribute='Value'].

      nota

      Amazon Kendra Web Crawler v2.0 utiliza un navegador Chrome sin interfaz y la información del formulario para autenticar y autorizar el acceso con una URL protegida por OAuth 2.0.

  • Opcional: copie el nombre del host y el número de puerto del servidor proxy web si desea utilizar un proxy web para conectarse a los sitios web internos que desea rastrear. El proxy web debe estar orientado al público. Amazon Kendra admite la conexión a servidores proxy web respaldados por una autenticación básica o puede conectarse sin autenticación.

  • Opcional: copió el ID de subred de la nube privada virtual (VPC) si quiere usar una VPC para conectarse a los sitios web internos que desea rastrear. Para obtener más información, consulte Configuración de un Amazon VPC.

  • Compruebe que cada documento de página web que desea indexar es único y que se encuentra entre otros orígenes de datos que piensa utilizar para el mismo índice. Cada origen de datos que desee utilizar para un índice no debe contener el mismo documento en varios orígenes de datos. Los ID de documento son globales para un índice y deben ser únicos por índice.

En su AWS cuenta, asegúrese de tener:

  • Creó un Amazon Kendra índice y, si utiliza la API, anotó el ID del índice.

  • Creó un IAM rol para su fuente de datos y, si usa la API, anotó el nombre del recurso de Amazon del IAM rol.

    nota

    Si cambias el tipo de autenticación y las credenciales, debes actualizar tu IAM rol para acceder al ID AWS Secrets Manager secreto correcto.

  • En el caso de los sitios web que requieren autenticación, o si utilizan un proxy web con autenticación, guardan las credenciales de autenticación en AWS Secrets Manager secreto y, si utilizan la API, anotan el ARN del secreto.

    nota

    Le recomendamos que actualice o modifique con regularidad las credenciales y el secreto. Por su propia seguridad, proporcione solo el nivel de acceso necesario. No se recomienda volver a utilizar las credenciales y los datos secretos en varios orígenes de datos ni en las versiones 1.0 y 2.0 del conector (si procede).

Si no tiene un IAM rol o secreto existente, puede usar la consola para crear un nuevo IAM rol y un Secrets Manager secreto al conectar su fuente de web crawler datos. Amazon Kendra Si utiliza la API, debe proporcionar el ARN de un IAM rol y un Secrets Manager secreto existentes y un ID de índice.

Instrucciones de conexión

Para conectarse Amazon Kendra a su fuente de web crawler datos, debe proporcionar los detalles necesarios de la fuente de web crawler datos para que Amazon Kendra pueda acceder a sus datos. Si aún no lo ha configuradoweb crawler, Amazon Kendra consulteRequisitos previos.

Console

Para conectarse Amazon Kendra a web crawler

  1. Inicie sesión en la Amazon Kendra consola AWS Management Console y ábrala.

  2. En el panel de navegación izquierdo, elija Índices y, a continuación, elija el índice que desee usar de la lista de índices.

    nota

    Puede elegir configurar o editar los ajustes de Control de acceso de usuarios en la Configuración del índice.

  3. En la página Introducción, seleccione Agregar origen de datos.

  4. En la página Añadir fuente de datos, selecciona el conector Web Crawler y, a continuación, selecciona Añadir conector. Si utilizas la versión 2 (si corresponde), elige el conector para rastreadores web con la etiqueta «V2.0".

  5. En la página Especificar detalles del origen de datos, introduzca la siguiente información:

    1. En Nombre y descripción, en Nombre del origen de datos: introduzca un nombre para el origen de datos. Puede incluir guiones, pero no espacios.

    2. (Opcional) Descripción: introduzca una descripción opcional para el origen de datos.

    3. En el idioma predeterminado: elija un idioma para filtrar los documentos para el índice. A menos que especifique lo contrario, el idioma predeterminado es el inglés. El idioma especificado en los metadatos del documento anula el idioma seleccionado.

    4. En Etiquetas, para añadir una nueva etiqueta: incluya etiquetas opcionales para buscar y filtrar sus recursos o realizar un seguimiento de sus AWS costes.

    5. Elija Siguiente.

  6. En la página Definir acceso y seguridad, introduzca la siguiente información:

    1. Origen: Elija entre URL de origen, mapas de sitio, archivo de URL de origen, archivo de mapas de sitio de origen. Si opta por utilizar un archivo de texto que incluya una lista de hasta 100 direcciones URL iniciales, debe especificar la ruta al Amazon S3 depósito en el que está almacenado el archivo. Si opta por utilizar un archivo XML de mapa del sitio, debe especificar la ruta al bucket Amazon S3 en el que está almacenado el archivo. También puede agrupar varios archivos XML de mapa del sitio en un archivo ZIP. De lo contrario, puede introducir manualmente hasta 10 URL semilla o punto de partida y hasta tres URL de mapa del sitio.

      nota

      Si desea rastrear un mapa del sitio, compruebe que la URL base o raíz coincide con las URL que figuran en la página de su mapa del sitio. Por ejemplo, si la URL de su mapa del sitio es https://example.com/sitemap-page.html, las URL enumeradas en esta página del mapa del sitio también deberían utilizar la URL base “https://example.com/”.

      Si sus sitios web requieren autenticación para acceder a ellos, puede elegir entre autenticación básica, NTLM/Kerberos, SAML o de formulario. En caso contrario, elija la opción de no autenticación.

      nota

      Si más adelante desea editar su origen de datos para cambiar las direcciones URL con autenticación a mapas del sitio, deberá crear un nuevo origen de datos. Amazon Kendra configura el origen de datos utilizando la información del punto de conexión de las URL semilla en el secreto Secrets Manager para la autenticación y, por lo tanto, no puede volver a configurar el origen de datos al cambiar a mapas de sitio.

      1. AWS Secrets Manager secreto: si sus sitios web requieren la misma autenticación para acceder a los sitios web, elija un secreto existente o cree uno nuevo Secrets Manager para almacenar las credenciales del sitio web. Si decides crear un secreto nuevo, se abrirá una ventana AWS Secrets Manager secreta.

        Si eligió la autenticación Básica o NTLM/Kerberos, introduzca un nombre para el secreto, además del nombre de usuario y la contraseña. El protocolo de autenticación NTLM incluye el hash de contraseñas y el protocolo de autenticación de Kerberos incluye el cifrado de contraseñas.

        Si eligió la autenticación SAML o Formularios, introduzca un nombre para el secreto, además del nombre de usuario y la contraseña. Utilice XPath para el campo del nombre de usuario (y XPath para el botón del nombre de usuario si utiliza SAML). Utilice XPaths para el campo y el botón de contraseña y para la URL de la página de inicio de sesión. Puede encontrar los XPaths (lenguaje de rutas XML) de los elementos utilizando las herramientas para desarrolladores de su navegador web. Los XPaths suelen seguir este formato: //tagname[@Attribute='Value'].

    2. Proxy web (opcional): introduzca el nombre de host y el número de puerto del servidor proxy que desee utilizar para conectarse a sitios web internos. Por ejemplo, el nombre de host de https://a.example.com/page1.html es “a.example.com“ y el número de puerto es 443, el puerto estándar para HTTPS. Si se requieren credenciales de proxy web para conectarse a un servidor de sitios web, puede crear una AWS Secrets Manager que almacene las credenciales.

    3. Nube privada virtual (VPC): puede optar por utilizar una VPC. Si es así, debe agregar Subredes y Grupos de seguridad de VPC.

    4. IAM rol: elija un IAM rol existente o cree uno nuevo IAM para acceder a las credenciales de su repositorio e indexar el contenido.

      nota

      IAM los roles utilizados para los índices no se pueden usar para las fuentes de datos. Si no está seguro de si un rol existente se utiliza para un índice o para las preguntas frecuentes, elija Crear un nuevo rol para evitar errores.

    5. Elija Siguiente.

  7. En la página Configurar ajustes de sincronización, introduzca la siguiente información:

    1. Ámbito de sincronización: establece límites para el rastreo de páginas web, incluidos sus dominios, tamaños de archivo y enlaces, y filtra las URL mediante patrones de expresiones regulares.

      1. (Opcional) Rango de dominios de rastreo: elija si desea rastrear solo los dominios del sitio web, los dominios con subdominios o rastrear también otros dominios a los que enlazan las páginas web. De forma predeterminada, Amazon Kendra solo rastrea los dominios de los sitios web que desee rastrear.

      2. (Opcional) Configuración adicional: configure los siguientes ajustes:

        • Profundidad de rastreo: la “profundidad” o el número de niveles desde el nivel inicial hasta el de rastreo. Por ejemplo, la página URL semilla tiene la profundidad 1 y todos los hipervínculos de esta página que también se rastreen tienen la profundidad 2.

        • Tamaño máximo de archivo: tamaño máximo en MB de una página web o archivo adjunto que se deben rastrear.

        • Máximo de enlaces por página: el número de direcciones URL de una sola página web para rastrear.

        • Limitación máxima de la velocidad de rastreo: el número de direcciones URL rastreadas por host de sitio web por minuto.

        • Archivos: elija rastrear los archivos a los que enlazan las páginas web.

        • Rastrear e indexar direcciones URL: añada patrones de expresiones regulares para incluir o excluir el rastreo de determinadas direcciones URL y la indexación de cualquier hipervínculo de estas páginas web con direcciones URL.

    2. Modo de sincronización: elija cómo desea actualizar el índice cuando cambie el contenido del origen de datos. Al sincronizar la fuente de datos Amazon Kendra por primera vez, todo el contenido se rastrea e indexa de forma predeterminada. Debes realizar una sincronización completa de los datos si la sincronización inicial ha fallado, incluso si no seleccionas la sincronización completa como opción de modo de sincronización.

      • Sincronización completa: indexa todo el contenido de forma inmediata y reemplaza el contenido existente cada vez que la fuente de datos se sincronice con el índice.

      • Sincronización nueva, modificada o eliminada: indexe solo el contenido nuevo, modificado y eliminado cada vez que la fuente de datos se sincronice con el índice. Amazon Kendra puede usar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido que ha cambiado desde la última sincronización.

    3. Programa de ejecución de sincronización: en Frecuencia, elija la frecuencia con la que Amazon Kendra se sincronizará con el origen de datos.

    4. Elija Siguiente.

  8. En la página Establecer asignaciones de campos, especifique la siguiente información:

    1. Seleccione entre los campos predeterminados Amazon Kendra generados por las páginas web y los archivos que desee asignar a su índice.

    2. Elija Siguiente.

  9. En la página Revisar y crear, compruebe que la información que ha introducido es correcta y, a continuación, seleccione Añadir origen de datos. También puede elegir editar la información desde esta página. El origen de datos aparecerá en la página Orígenes de datos una vez que el origen de datos se haya agregado correctamente.

API

Para conectarse Amazon Kendra a web crawler

Debe especificar un JSON del esquema del origen de datos mediante la API TemplateConfiguration. Debe proporcionar la siguiente información:

  • Fuente de datos: especifique el tipo de fuente de datos como WEBCRAWLERV2 cuando utiliza el esquema TemplateConfigurationJSON. Especifique también la fuente de datos TEMPLATE al llamar a la CreateDataSourceAPI.

  • URL: especifique las URL semilla o de punto de partida de los sitios web o las URL de mapa del sitio de los sitios web que desea rastrear. Puedes especificar la ruta a un Amazon S3 bucket que almacene tu lista de URL iniciales. Cada URL en el archivo de texto para las URL de semillas debe formatearse en una línea separada. También puedes especificar la ruta a un Amazon S3 depósito que almacene los archivos XML de tu mapa del sitio. Puede agrupar varios archivos de mapa del sitio en un archivo ZIP y almacenar el archivo ZIP en su bucket de Amazon S3 .

    nota

    Si desea rastrear un mapa del sitio, compruebe que la URL base o raíz coincide con las URL que figuran en la página de su mapa del sitio. Por ejemplo, si la URL de su mapa del sitio es https://example.com/sitemap-page.html, las URL enumeradas en esta página del mapa del sitio también deberían utilizar la URL base “https://example.com/”.

  • Modo de sincronización: especifique cómo Amazon Kendra debe actualizarse el índice cuando cambie el contenido de la fuente de datos. Al sincronizar la fuente de datos Amazon Kendra por primera vez, todo el contenido se rastrea e indexa de forma predeterminada. Debes realizar una sincronización completa de los datos si la sincronización inicial ha fallado, incluso si no seleccionas la sincronización completa como opción de modo de sincronización. Puede elegir entre las siguientes opciones:

    • FORCED_FULL_CRAWLpara indexar todo el contenido de forma actualizada, sustituyendo el contenido existente cada vez que la fuente de datos se sincronice con el índice.

    • FULL_CRAWLpara indexar solo el contenido nuevo, modificado y eliminado cada vez que la fuente de datos se sincronice con el índice. Amazon Kendra puede usar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido que ha cambiado desde la última sincronización.

  • Autenticación: si sus sitios web requieren la misma autenticación, especifique autenticación BasicAuth, NTLM_Kerberos, SAML o Form. Si sus sitios web no requieren autenticación, especifique NoAuthentication.

  • Nombre de recurso de Amazon (ARN) secreto: si sus sitios web requieren autenticación básica, NTLM o Kerberos, debe proporcionar un secreto que almacene las credenciales de autenticación de su nombre de usuario y contraseña. Debe proporcionar el nombre de recurso de Amazon (ARN) de un secreto de AWS Secrets Manager . El secreto se almacena en una estructura JSON con las siguientes claves:

    { "seedUrlsHash": "Hash representation of all seed URLs", "userName": "user name", "password": "password" }

    Si sus sitios web requieren autenticación SAML, el secreto se almacena en una estructura JSON con las siguientes claves:

    { "seedUrlsHash": "Hash representation of all seed URLs", "userName": "user name", "password": "password", "userNameFieldXpath": "XPath for user name field", "userNameButtonXpath": "XPath for user name button", "passwordFieldXpath": "XPath for password field", "passwordButtonXpath": "XPath for password button", "loginPageUrl": "Full URL for website login page" }

    Si sus sitios web requieren autenticación de formularios, el secreto se almacena en una estructura JSON con las siguientes claves:

    { "seedUrlsHash": "Hash representation of all seed URLs", "userName": "user name", "password": "password", "userNameFieldXpath": "XPath for user name field", "passwordFieldXpath": "XPath for password field", "passwordButtonXpath": "XPath for password button", "loginPageUrl": "Full URL for website login page" }

    Puede encontrar los XPaths (lenguaje de rutas XML) de los elementos utilizando las herramientas para desarrolladores de su navegador web. Los XPaths suelen seguir este formato: //tagname[@Attribute='Value'].

    También puede proporcionar credenciales de proxy web mediante un secreto de AWS Secrets Manager .

  • IAM rol: especifique RoleArn cuándo llama CreateDataSource para proporcionar a un IAM rol permisos para acceder a su Secrets Manager secreto y para llamar a las API públicas requeridas para el conector del rastreador web y. Amazon Kendra Para obtener más información, consulte Roles de IAM para orígenes de datos del rastreador web.

También puede añadir las siguientes características opcionales:

  • Nube privada virtual (VPC): especifique a VpcConfiguration cuándo llamar a CreateDataSource. Para obtener más información, consulte Configuración Amazon Kendra para usar un Amazon VPC.

  • Rango de dominios: elija si desea rastrear solo los dominios web con subdominios o rastrear también otros dominios a los que enlazan las páginas web. De forma predeterminada, Amazon Kendra solo rastrea los dominios de los sitios web que deseas rastrear.

  • La “profundidad” o número de niveles desde el nivel semilla hasta el nivel rastreo. Por ejemplo, la página URL semilla tiene la profundidad 1 y todos los hipervínculos de esta página que también se rastreen tienen la profundidad 2.

  • El número máximo de URL de una misma página web que se rastrearán.

  • Tamaño máximo (en MB) de una página web o un archivo adjunto que se van a rastrear.

  • El número de direcciones URL rastreadas por host de sitio web por minuto.

  • El host del proxy web y el número de puerto para conectarse a sitios web internos y rastrearlos. Por ejemplo, el nombre de host de https://a.example.com/page1.html es “a.example.com“ y el número de puerto es 443, el puerto estándar para HTTPS. Si se requieren credenciales de proxy web para conectarse a un host de sitio web, puede crear un AWS Secrets Manager que almacene las credenciales.

  • Filtros de inclusión y exclusión: especifique si desea incluir o excluir el rastreo de determinadas URL y la indexación de los hipervínculos de estas páginas web con URL.

    nota

    La mayoría de los orígenes de datos utilizan patrones de expresiones regulares, que son patrones de inclusión o exclusión denominados filtros. Si especifica un filtro de inclusión, solo se indexará el contenido que coincida con el filtro de inclusión. Los documentos que no coincidan con el filtro de inclusión no se indexan. Si especifica un filtro de inclusión y exclusión, los documentos que coincidan con el filtro de exclusión no se indexarán, aunque coincidan con el filtro de inclusión.

  • Asignaciones de campos: elija asignar los campos de las páginas web y los archivos de las páginas web a sus campos de índice. Amazon Kendra Para obtener más información, consulte Asignación de campos de origen de datos.

Para obtener una lista de otras claves JSON importantes que debe configurar, consulte el Esquema de plantilla de Web Crawler de Amazon Kendra.