Características admitidas Requisitos previos Instrucciones de conexión

Amazon Kendra Conector Web Crawler v2.0

Puede utilizar Amazon Kendra Web Crawler para rastrear e indexar páginas web.

Solo puede rastrear sitios web de cara al público o sitios web internos de la empresa que utilicen el protocolo de comunicación segura Hypertext Transfer Protocol Secure (HTTPS). Si recibe un error al rastrear un sitio web, es posible que el sitio web esté bloqueado para que no pueda rastrearse. Para rastrear sitios web internos, puede configurar un proxy web. El proxy web debe estar orientado al público. También puede utilizar la autenticación para acceder a sitios web y rastrearlos.

Amazon Kendra Web Crawler v2.0 utiliza el paquete de rastreadores web Selenium y un controlador Chromium. Amazon Kendra actualiza automáticamente la versión de Selenium y el controlador Chromium mediante la integración continua (CI).

Al seleccionar los sitios web que se van a indexar, se debe respetar la Política de uso aceptable de Amazon y todas las demás condiciones de Amazon. Recuerde que solo debe usar Amazon Kendra Web Crawler para indexar sus propias páginas web o páginas web para las que tenga autorización para indexar. Para obtener información sobre cómo impedir que Amazon Kendra Web Crawler indexe sus sitios web, consulte. Configuración del archivo robots.txt para el rastreador web de Amazon Kendra . El uso indebido de Amazon Kendra Web Crawler para rastrear agresivamente sitios web o páginas web que no son de su propiedad no se considera un uso aceptable.

Para solucionar problemas del conector de fuente de datos del rastreador Amazon Kendra web, consulte. Solución de problemas con los orígenes de datos

nota

El conector Web Crawler v2.0 no admite el rastreo de listas de sitios web desde depósitos cifrados. AWS KMS Amazon S3 Solo admite el cifrado del lado del servidor con claves administradas. Amazon S3

importante

La creación de conectores Web Crawler v2.0 no es compatible con. AWS CloudFormation Utilice el conector Web Crawler v1.0 si necesita asistencia. AWS CloudFormation

Características admitidas

Asignaciones de campo
Filtros de inclusión/exclusión
Sincronizaciones de contenido completas e incrementales
Proxy de web
Autenticación básica, NTLM/Kerberos, SAML y mediante formularios para sus sitios web
Nube privada virtual (VPC)

Requisitos previos

Antes de poder utilizarlos Amazon Kendra para indexar tus sitios web, comprueba los detalles de tus sitios web y AWS cuentas.

Para sus sitios web, asegúrese de que:

Has copiado la raíz o el mapa URLs del sitio web de los sitios web que quieres indexar. Puedes guardarlo URLs en un archivo de texto y subirlo a un Amazon S3 bucket. Cada URL del archivo de texto debe estar formateada en una línea independiente. Si quieres almacenar tus mapas de sitio en un Amazon S3 depósito, asegúrate de haber copiado el XML del mapa del sitio y de haberlo guardado en un archivo XML. También puede agrupar varios archivos XML de mapa del sitio en un archivo ZIP.

nota
(local o en el servidor) Amazon Kendra comprueba si la información de punto final incluida AWS Secrets Manager es la misma que la información de punto final especificada en los detalles de configuración de la fuente de datos. Esto ayuda a evitar el problema del suplente confuso, que es un problema de seguridad en el que un usuario no tiene permiso para realizar una acción, pero utiliza Amazon Kendra como proxy para acceder al secreto configurado y realizar la acción. Si más adelante cambia la información de punto de conexión, debe crear un nuevo secreto para sincronizar esta información.
Para los sitios web que requieren autenticación básica, NTLM o Kerberos:
- Anote las credenciales de autenticación de su sitio web, que incluyen un nombre de usuario y una contraseña.
  
  nota
  Amazon Kendra Web Crawler v2.0 admite el protocolo de autenticación NTLM, que incluye el cifrado de contraseñas, y el protocolo de autenticación Kerberos, que incluye el cifrado de contraseñas.
Para los sitios web que requieren autenticación mediante SAML o mediante formulario de inicio de sesión:
- Anote las credenciales de autenticación de su sitio web, que incluyen un nombre de usuario y una contraseña.
- Se copió el campo del nombre de usuario XPaths (y el botón del nombre de usuario si se utiliza SAML), el campo y el botón de la contraseña (en el lenguaje de rutas XML) y se copió la URL de la página de inicio de sesión. Puede encontrar los elementos utilizando las herramientas XPaths de desarrollador de su navegador web. XPaths suelen seguir este formato://tagname[@Attribute='Value'].
  
  nota
  Amazon Kendra Web Crawler v2.0 utiliza un navegador Chrome inalámbrico y la información del formulario para autenticar y autorizar el acceso con una OAuth URL protegida por la versión 2.0.
Opcional: copie el nombre del host y el número de puerto del servidor proxy web si desea utilizar un proxy web para conectarse a los sitios web internos que desea rastrear. El proxy web debe estar orientado al público. Amazon Kendra admite la conexión a servidores proxy web respaldados por una autenticación básica o puede conectarse sin autenticación.
Opcional: ha copiado el ID de subred de la nube privada virtual (VPC) si quiere usar una VPC para conectarse a los sitios web internos que desea rastrear. Para obtener más información, consulte Configurar un Amazon VPC.
Compruebe que cada documento de página web que desea indexar es único y que se encuentra entre otros orígenes de datos que piensa utilizar para el mismo índice. Cada origen de datos que desee utilizar para un índice no debe contener el mismo documento en varios orígenes de datos. IDs Los documentos son globales para un índice y deben ser únicos por índice.

En su AWS cuenta, asegúrese de tener:

Creó un Amazon Kendra índice y, si utiliza la API, anotó el ID del índice.
Creó un IAM rol para su fuente de datos y, si usa la API, anotó el nombre del recurso de Amazon del IAM rol.

nota
Si cambias el tipo de autenticación y las credenciales, debes actualizar tu IAM rol para acceder al ID AWS Secrets Manager secreto correcto.
En el caso de los sitios web que requieren autenticación, o si utilizan un proxy web con autenticación, guardan las credenciales de autenticación en AWS Secrets Manager secreto y, si utilizan la API, anotan el ARN del secreto.

nota
Le recomendamos que actualice o modifique con regularidad las credenciales y el secreto. Por su propia seguridad, proporcione solo el nivel de acceso necesario. No se recomienda volver a utilizar las credenciales y los datos secretos en varios orígenes de datos ni en las versiones 1.0 y 2.0 del conector (si procede).

Si no tiene un IAM rol o secreto existente, puede usar la consola para crear un nuevo IAM rol y un Secrets Manager secreto al conectar su fuente de web crawler datos. Amazon Kendra Si utiliza la API, debe proporcionar el ARN de un IAM rol y un Secrets Manager secreto existentes y un ID de índice.

Instrucciones de conexión

Para conectarse Amazon Kendra a su fuente de web crawler datos, debe proporcionar los detalles necesarios de la fuente de web crawler datos para que Amazon Kendra pueda acceder a sus datos. Si aún no lo ha configuradoweb crawler, Amazon Kendra consulteRequisitos previos.

Console

Para conectarse Amazon Kendra a web crawler

Inicie sesión en la Amazon Kendra consola AWS Management Console y ábrala.
En el panel de navegación izquierdo, elija Índices y, a continuación, elija el índice que desee usar de la lista de índices.

nota
Puede elegir configurar o editar los ajustes de Control de acceso de usuarios en la Configuración del índice.
En la página Introducción, seleccione Agregar origen de datos.
En la página Añadir fuente de datos, selecciona el conector Web Crawler y, a continuación, selecciona Añadir conector. Si utilizas la versión 2 (si corresponde), elige el conector para rastreadores web con la etiqueta «V2.0".
En la página Especificar detalles del origen de datos, introduzca la siguiente información:
1. En Nombre y descripción, en Nombre del origen de datos: introduzca un nombre para el origen de datos. Puede incluir guiones, pero no espacios.
2. (Opcional) Descripción: introduzca una descripción opcional para el origen de datos.
3. En el idioma predeterminado: elija un idioma para filtrar los documentos para el índice. A menos que especifique lo contrario, el idioma predeterminado es el inglés. El idioma especificado en los metadatos del documento anula el idioma seleccionado.
4. En Etiquetas, para añadir una nueva etiqueta: incluya etiquetas opcionales para buscar y filtrar sus recursos o realizar un seguimiento de sus AWS costes.
5. Elija Siguiente.
En la página Definir acceso y seguridad, introduzca la siguiente información:
1. Fuente: elige entre Fuente, Mapas de sitio de origen URLs, Archivo de origen o URLs Archivo de mapas de sitio de origen. Si opta por utilizar un archivo de texto que incluya una lista de hasta 100 semillas URLs, debe especificar la ruta al Amazon S3 depósito en el que está almacenado el archivo. Si opta por utilizar un archivo XML de mapa del sitio, debe especificar la ruta al bucket Amazon S3 en el que está almacenado el archivo. También puede agrupar varios archivos XML de mapa del sitio en un archivo ZIP. De lo contrario, puedes introducir manualmente hasta 10 semillas o puntos de partida URLs y hasta tres mapas del sitio URLs.
  
  nota
  Si quieres rastrear un mapa del sitio, comprueba que la URL base o raíz sea la misma que la que URLs aparece en la página del mapa del sitio. Por ejemplo, si la URL de tu mapa del sitio es https://example.com/sitemap-page.html, la que URLs aparece en esta página también debería usar la URL base "https://example.com/».
  
  Si sus sitios web requieren autenticación para acceder a ellos, puede elegir entre autenticación básica, NTLM/Kerberos, SAML o de formulario. En caso contrario, elija la opción de no autenticación.
  
  nota
  Si más adelante quieres editar la fuente de datos para cambiar la raíz URLs con la autenticación a los mapas de sitio, debes crear una nueva fuente de datos. Amazon Kendra configura la fuente de datos con la información de URLs punto final que figura en el Secrets Manager secreto para la autenticación y, por lo tanto, no puede volver a configurar la fuente de datos al cambiar a mapas de sitio.
  1. AWS Secrets Manager secreto: si sus sitios web requieren la misma autenticación para acceder a los sitios web, elija un secreto existente o cree uno nuevo Secrets Manager para almacenar las credenciales de su sitio web. Si decides crear un secreto nuevo, se abrirá una ventana AWS Secrets Manager secreta.
    
    Si eligió la autenticación Básica o NTLM/Kerberos, introduzca un nombre para el secreto, además del nombre de usuario y la contraseña. El protocolo de autenticación NTLM incluye el hash de contraseñas y el protocolo de autenticación de Kerberos incluye el cifrado de contraseñas.
    
    Si eligió la autenticación SAML o Formularios, introduzca un nombre para el secreto, además del nombre de usuario y la contraseña. XPath Utilízalo para el campo de nombre de usuario (y XPath para el botón de nombre de usuario si utilizas SAML). XPaths Utilícelo para el campo y el botón de contraseña y para la URL de la página de inicio de sesión. Puede encontrar los elementos XPaths (lenguaje de rutas XML) utilizando las herramientas de desarrollo de su navegador web. XPaths suelen seguir este formato://tagname[@Attribute='Value'].
2. Proxy web (opcional): introduzca el nombre de host y el número de puerto del servidor proxy que desee utilizar para conectarse a sitios web internos. Por ejemplo, el nombre de host de https://a.example.com/page1.html es “a.example.com“ y el número de puerto es 443, el puerto estándar para HTTPS. Si se requieren credenciales de proxy web para conectarse a un servidor de sitios web, puede crear uno AWS Secrets Manager que almacene las credenciales.
3. Nube privada virtual (VPC): puede optar por utilizar una VPC. Si es así, debe agregar Subredes y Grupos de seguridad de VPC.
4. IAM rol: elija un IAM rol existente o cree uno nuevo IAM para acceder a las credenciales de su repositorio e indexar el contenido.
  
  nota
  IAM los roles utilizados para los índices no se pueden usar para las fuentes de datos. Si no está seguro de si un rol existente se utiliza para un índice o para las preguntas frecuentes, elija Crear un nuevo rol para evitar errores.
5. Elija Siguiente.
En la página Configurar ajustes de sincronización, introduzca la siguiente información:
1. Ámbito de sincronización: establezca límites para el rastreo de páginas web, incluidos sus dominios, tamaños de archivo y enlaces, y filtre URLs mediante patrones de expresiones regulares.
  1. (Opcional) Rango de dominios de rastreo: elija si desea rastrear solo los dominios del sitio web, los dominios con subdominios o rastrear también otros dominios a los que enlazan las páginas web. De forma predeterminada, Amazon Kendra solo rastrea los dominios de los sitios web que deseas rastrear.
  2. (Opcional) Configuración adicional: configure los siguientes ajustes:
    - Profundidad de rastreo: la “profundidad” o el número de niveles desde el nivel inicial hasta el de rastreo. Por ejemplo, la página URL semilla tiene la profundidad 1 y todos los hipervínculos de esta página que también se rastreen tienen la profundidad 2.
    - Tamaño máximo de archivo: tamaño máximo en MB de una página web o archivo adjunto que se deben rastrear.
    - Número máximo de enlaces por página: el número máximo de enlaces que URLs se pueden rastrear en una sola página web.
    - Limitación máxima de la velocidad de rastreo: número máximo de URLs rastreados por servidor de sitio web por minuto.
    - Archivos: elija rastrear los archivos a los que enlazan las páginas web.
    - Rastrear e indexar URLs: añada patrones de expresiones regulares para incluir o excluir el rastreo de determinadas URLs páginas web con direcciones URL y la indexación de cualquier hipervínculo.
2. Modo de sincronización: elija cómo desea actualizar el índice cuando cambie el contenido del origen de datos. Al sincronizar la fuente de datos con ella Amazon Kendra por primera vez, todo el contenido se rastrea e indexa de forma predeterminada. Debes realizar una sincronización completa de los datos si la sincronización inicial ha fallado, incluso si no seleccionas la sincronización completa como opción de modo de sincronización.
  - Sincronización completa: indexa todo el contenido de forma inmediata y reemplaza el contenido existente cada vez que la fuente de datos se sincronice con el índice.
  - Sincronización nueva, modificada o eliminada: indexe solo el contenido nuevo, modificado y eliminado cada vez que la fuente de datos se sincronice con el índice. Amazon Kendra puede usar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido que ha cambiado desde la última sincronización.
3. Programa de ejecución de sincronización: en Frecuencia, elija la frecuencia con la que Amazon Kendra se sincronizará con el origen de datos.
4. Elija Siguiente.
En la página Establecer asignaciones de campos, especifique la siguiente información:
1. Seleccione entre los campos predeterminados Amazon Kendra generados por las páginas web y los archivos que desee asignar a su índice.
2. Elija Siguiente.
En la página Revisar y crear, compruebe que la información que ha introducido es correcta y, a continuación, seleccione Añadir origen de datos. También puede elegir editar la información desde esta página. El origen de datos aparecerá en la página Orígenes de datos una vez que el origen de datos se haya agregado correctamente.

API

Para conectarse Amazon Kendra a web crawler

Debe especificar un JSON del esquema del origen de datos mediante la API TemplateConfiguration. Debe proporcionar la siguiente información:

Fuente de datos: especifique el tipo de fuente de datos como WEBCRAWLERV2 cuando utiliza el esquema TemplateConfigurationJSON. Especifique también la fuente de datos TEMPLATE al llamar a la CreateDataSourceAPI.
URLs—Especifique la semilla o el punto URLs de partida de los sitios web o el mapa del sitio web URLs de los sitios web que desee rastrear. Puedes especificar la ruta a un Amazon S3 depósito que almacene tu lista de semillas. URLs Cada URL del archivo de texto para semillas URLs debe estar formateada en una línea independiente. También puedes especificar la ruta a un Amazon S3 depósito que almacene los archivos XML del mapa del sitio. Puede agrupar varios archivos de mapa del sitio en un archivo ZIP y almacenar el archivo ZIP en su bucket de Amazon S3 .

nota
Si quieres rastrear un mapa del sitio, comprueba que la URL base o raíz sea la misma que la que URLs aparece en la página de tu mapa del sitio. Por ejemplo, si la URL de tu mapa del sitio es https://example.com/sitemap-page.html, la que URLs aparece en esta página también debería usar la URL base "https://example.com/».
Modo de sincronización: especifique cómo Amazon Kendra debe actualizarse el índice cuando cambie el contenido de la fuente de datos. Al sincronizar la fuente de datos Amazon Kendra por primera vez, todo el contenido se rastrea e indexa de forma predeterminada. Debes realizar una sincronización completa de los datos si la sincronización inicial ha fallado, incluso si no seleccionas la sincronización completa como opción de modo de sincronización. Puede elegir entre las siguientes opciones:
- FORCED_FULL_CRAWLpara indexar todo el contenido de forma actualizada, sustituyendo el contenido existente cada vez que la fuente de datos se sincronice con el índice.
- FULL_CRAWLpara indexar solo el contenido nuevo, modificado y eliminado cada vez que la fuente de datos se sincronice con el índice. Amazon Kendra puede usar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido que ha cambiado desde la última sincronización.
Autenticación: si sus sitios web requieren la misma autenticación, especifique autenticación BasicAuth, NTLM_Kerberos, SAML o Form. Si sus sitios web no requieren autenticación, especifique NoAuthentication.
Nombre de recurso de Amazon (ARN) secreto: si sus sitios web requieren autenticación básica, NTLM o Kerberos, debe proporcionar un secreto que almacene las credenciales de autenticación de su nombre de usuario y contraseña. Debe proporcionar el nombre de recurso de Amazon (ARN) de un secreto de AWS Secrets Manager . El secreto se almacena en una estructura JSON con las siguientes claves:
```
{
    "seedUrlsHash": "Hash representation of all seed URLs",
    "userName": "user name",
    "password": "password"
}
```
Si sus sitios web requieren autenticación SAML, el secreto se almacena en una estructura JSON con las siguientes claves:
```
{
    "seedUrlsHash": "Hash representation of all seed URLs",                                
    "userName": "user name",
    "password": "password",
    "userNameFieldXpath": "XPath for user name field",
    "userNameButtonXpath": "XPath for user name button",
    "passwordFieldXpath": "XPath for password field",
    "passwordButtonXpath": "XPath for password button",
    "loginPageUrl": "Full URL for website login page"
}
```
Si sus sitios web requieren autenticación de formularios, el secreto se almacena en una estructura JSON con las siguientes claves:
```
{
    "seedUrlsHash": "Hash representation of all seed URLs",
    "userName": "user name",
    "password": "password",
    "userNameFieldXpath": "XPath for user name field",
    "passwordFieldXpath": "XPath for password field",
    "passwordButtonXpath": "XPath for password button",
    "loginPageUrl": "Full URL for website login page"
}
```
Puede encontrar los elementos XPaths (lenguaje de rutas XML) mediante las herramientas de desarrollo de su navegador web. XPaths suelen seguir este formato://tagname[@Attribute='Value'].

También puede proporcionar credenciales de proxy web mediante un secreto de AWS Secrets Manager .
IAM rol: especifique RoleArn cuándo llama CreateDataSource para proporcionar un IAM rol con permisos para acceder a su Secrets Manager secreto y para llamar al público requerido APIs para el conector del rastreador web y. Amazon Kendra Para obtener más información, consulte Roles de IAM para orígenes de datos del rastreador web.

También puede añadir las siguientes características opcionales:

Nube privada virtual (VPC): especifique a VpcConfiguration cuándo llamar a CreateDataSource. Para obtener más información, consulte ¿Se está configurando Amazon Kendra para usar un Amazon VPC.
Rango de dominios: elija si desea rastrear solo los dominios web con subdominios o rastrear también otros dominios a los que enlazan las páginas web. De forma predeterminada, Amazon Kendra solo rastrea los dominios de los sitios web que desea rastrear.
La “profundidad” o número de niveles desde el nivel semilla hasta el nivel rastreo. Por ejemplo, la página URL semilla tiene la profundidad 1 y todos los hipervínculos de esta página que también se rastreen tienen la profundidad 2.
El número máximo de páginas web que URLs se pueden rastrear en una sola página web.
Tamaño máximo (en MB) de una página web o un archivo adjunto que se van a rastrear.
El número máximo de URLs rastreados por servidor de sitio web por minuto.
El host del proxy web y el número de puerto para conectarse a sitios web internos y rastrearlos. Por ejemplo, el nombre de host de https://a.example.com/page1.html es “a.example.com“ y el número de puerto es 443, el puerto estándar para HTTPS. Si se requieren credenciales de proxy web para conectarse a un host de sitio web, puede crear un AWS Secrets Manager que almacene las credenciales.
Filtros de inclusión y exclusión: especifique si desea incluir o excluir el rastreo URLs e indexación de algunos hipervínculos de estas páginas web con URL.

nota
La mayoría de los orígenes de datos utilizan patrones de expresiones regulares, que son patrones de inclusión o exclusión denominados filtros. Si especifica un filtro de inclusión, solo se indexará el contenido que coincida con el filtro de inclusión. Los documentos que no coincidan con el filtro de inclusión no se indexan. Si especifica un filtro de inclusión y exclusión, los documentos que coincidan con el filtro de exclusión no se indexarán, aunque coincidan con el filtro de inclusión.
Asignaciones de campos: elija asignar los campos de las páginas web y los archivos de páginas web a los campos de índice. Amazon Kendra Para obtener más información, consulte Asignación de campos de origen de datos.

Para obtener una lista de otras claves JSON importantes que debe configurar, consulte el Esquema de plantilla de Web Crawler de Amazon Kendra.

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Amazon Kendra Conector Web Crawler v1.0

Configuración del robots.txt archivo para Web Crawler Amazon Kendra