Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Puede utilizar Amazon Kendra Web Crawler para rastrear e indexar páginas web.
Solo puede rastrear sitios web de cara al público o sitios web internos de la empresa que utilicen el protocolo de comunicación segura Hypertext Transfer Protocol Secure (HTTPS). Si recibe un error al rastrear un sitio web, es posible que el sitio web esté bloqueado para que no pueda rastrearse. Para rastrear sitios web internos, puede configurar un proxy web. El proxy web debe estar orientado al público. También puede utilizar la autenticación para acceder a sitios web y rastrearlos.
Amazon Kendra Web Crawler v2.0 utiliza el paquete de rastreadores web Selenium y un controlador Chromium. Amazon Kendra actualiza automáticamente la versión de Selenium y el controlador Chromium mediante la integración continua (CI).
Al seleccionar los sitios web que se van a indexar, se debe respetar la Política de uso aceptable de Amazon
Para solucionar problemas del conector de fuente de datos del rastreador Amazon Kendra web, consulte. Solución de problemas con los orígenes de datos
nota
El conector Web Crawler v2.0 no admite el rastreo de listas de sitios web desde depósitos cifrados. AWS KMS Amazon S3 Solo admite el cifrado del lado del servidor con claves administradas. Amazon S3
importante
La creación de conectores Web Crawler v2.0 no es compatible con. AWS CloudFormation Utilice el conector Web Crawler v1.0 si necesita asistencia. AWS CloudFormation
Características admitidas
-
Asignaciones de campo
-
Filtros de inclusión/exclusión
-
Sincronizaciones de contenido completas e incrementales
-
Proxy de web
-
Autenticación básica, NTLM/Kerberos, SAML y mediante formularios para sus sitios web
-
Nube privada virtual (VPC)
Requisitos previos
Antes de poder utilizarlos Amazon Kendra para indexar tus sitios web, comprueba los detalles de tus sitios web y AWS cuentas.
Para sus sitios web, asegúrese de que:
-
Has copiado la raíz o el mapa URLs del sitio web de los sitios web que quieres indexar. Puedes guardarlo URLs en un archivo de texto y subirlo a un Amazon S3 bucket. Cada URL del archivo de texto debe estar formateada en una línea independiente. Si quieres almacenar tus mapas de sitio en un Amazon S3 depósito, asegúrate de haber copiado el XML del mapa del sitio y de haberlo guardado en un archivo XML. También puede agrupar varios archivos XML de mapa del sitio en un archivo ZIP.
nota
(local o en el servidor) Amazon Kendra comprueba si la información de punto final incluida AWS Secrets Manager es la misma que la información de punto final especificada en los detalles de configuración de la fuente de datos. Esto ayuda a evitar el problema del suplente confuso, que es un problema de seguridad en el que un usuario no tiene permiso para realizar una acción, pero utiliza Amazon Kendra como proxy para acceder al secreto configurado y realizar la acción. Si más adelante cambia la información de punto de conexión, debe crear un nuevo secreto para sincronizar esta información.
-
Para los sitios web que requieren autenticación básica, NTLM o Kerberos:
-
Anote las credenciales de autenticación de su sitio web, que incluyen un nombre de usuario y una contraseña.
nota
Amazon Kendra Web Crawler v2.0 admite el protocolo de autenticación NTLM, que incluye el cifrado de contraseñas, y el protocolo de autenticación Kerberos, que incluye el cifrado de contraseñas.
-
-
Para los sitios web que requieren autenticación mediante SAML o mediante formulario de inicio de sesión:
-
Anote las credenciales de autenticación de su sitio web, que incluyen un nombre de usuario y una contraseña.
-
Se copió el campo del nombre de usuario XPaths (y el botón del nombre de usuario si se utiliza SAML), el campo y el botón de la contraseña (en el lenguaje de rutas XML) y se copió la URL de la página de inicio de sesión. Puede encontrar los elementos utilizando las herramientas XPaths de desarrollador de su navegador web. XPaths suelen seguir este formato:
//tagname[@Attribute='Value']
.nota
Amazon Kendra Web Crawler v2.0 utiliza un navegador Chrome inalámbrico y la información del formulario para autenticar y autorizar el acceso con una OAuth URL protegida por la versión 2.0.
-
-
Opcional: copie el nombre del host y el número de puerto del servidor proxy web si desea utilizar un proxy web para conectarse a los sitios web internos que desea rastrear. El proxy web debe estar orientado al público. Amazon Kendra admite la conexión a servidores proxy web respaldados por una autenticación básica o puede conectarse sin autenticación.
-
Opcional: ha copiado el ID de subred de la nube privada virtual (VPC) si quiere usar una VPC para conectarse a los sitios web internos que desea rastrear. Para obtener más información, consulte Configuración de un Amazon VPC.
-
Compruebe que cada documento de página web que desea indexar es único y que se encuentra entre otros orígenes de datos que piensa utilizar para el mismo índice. Cada origen de datos que desee utilizar para un índice no debe contener el mismo documento en varios orígenes de datos. IDs Los documentos son globales para un índice y deben ser únicos por índice.
En su AWS cuenta, asegúrese de tener:
-
Creó un Amazon Kendra índice y, si utiliza la API, anotó el ID del índice.
-
Creó un IAM rol para su fuente de datos y, si usa la API, anotó el nombre del recurso de Amazon del IAM rol.
nota
Si cambias el tipo de autenticación y las credenciales, debes actualizar tu IAM rol para acceder al ID AWS Secrets Manager secreto correcto.
-
En el caso de los sitios web que requieren autenticación, o si utilizan un proxy web con autenticación, guardan las credenciales de autenticación en AWS Secrets Manager secreto y, si utilizan la API, anotan el ARN del secreto.
nota
Le recomendamos que actualice o modifique con regularidad las credenciales y el secreto. Por su propia seguridad, proporcione solo el nivel de acceso necesario. No se recomienda volver a utilizar las credenciales y los datos secretos en varios orígenes de datos ni en las versiones 1.0 y 2.0 del conector (si procede).
Si no tienes un IAM rol o secreto existente, puedes usar la consola para crear un nuevo IAM rol y un Secrets Manager secreto al conectar tu web crawler fuente de datos a Amazon Kendra. Si utiliza la API, debe proporcionar el ARN de un IAM rol y un Secrets Manager secreto existentes y un ID de índice.
Instrucciones de conexión
Para conectarse Amazon Kendra a su web crawler fuente de datos, debe proporcionar los detalles necesarios de su web crawler fuente de datos para que Amazon Kendra pueda acceder a sus datos. Si aún no lo ha configurado web crawler para Amazon Kendra verRequisitos previos.
Para conectarse Amazon Kendra a web crawler
-
Inicie sesión en la Amazon Kendra consola AWS Management Console y ábrala
. -
En el panel de navegación izquierdo, elija Índices y, a continuación, elija el índice que desee usar de la lista de índices.
nota
Puede elegir configurar o editar los ajustes de Control de acceso de usuarios en la Configuración del índice.
-
En la página Introducción, seleccione Agregar origen de datos.
-
En la página Añadir fuente de datos, selecciona el conector Web Crawler y, a continuación, selecciona Añadir conector. Si utilizas la versión 2 (si corresponde), elige el conector para rastreadores web con la etiqueta «V2.0".
-
En la página Especificar detalles del origen de datos, introduzca la siguiente información:
-
En Nombre y descripción, en Nombre del origen de datos: introduzca un nombre para el origen de datos. Puede incluir guiones, pero no espacios.
-
(Opcional) Descripción: introduzca una descripción opcional para el origen de datos.
-
En el idioma predeterminado: elija un idioma para filtrar los documentos para el índice. A menos que especifique lo contrario, el idioma predeterminado es el inglés. El idioma especificado en los metadatos del documento anula el idioma seleccionado.
-
En Etiquetas, para añadir una nueva etiqueta: incluya etiquetas opcionales para buscar y filtrar sus recursos o realizar un seguimiento de sus AWS costes.
-
Elija Next (Siguiente).
-
-
En la página Definir acceso y seguridad, introduzca la siguiente información:
-
Fuente: elige entre Fuente, Mapas de sitio de origen URLs, Archivo de origen o URLs Archivo de mapas de sitio de origen. Si opta por utilizar un archivo de texto que incluya una lista de hasta 100 semillas URLs, debe especificar la ruta al Amazon S3 depósito en el que está almacenado el archivo. Si opta por utilizar un archivo XML de mapa del sitio, debe especificar la ruta al bucket Amazon S3 en el que está almacenado el archivo. También puede agrupar varios archivos XML de mapa del sitio en un archivo ZIP. De lo contrario, puedes introducir manualmente hasta 10 semillas o puntos de partida URLs y hasta tres mapas del sitio URLs.
nota
Si quieres rastrear un mapa del sitio, comprueba que la URL base o raíz sea la misma que la que URLs aparece en la página del mapa del sitio. Por ejemplo, si la URL de tu mapa del sitio es https://example.com/sitemap-page.html, las que URLs aparecen en esta página del mapa del sitio también deben usar la URL base»https://example.com/".
Si sus sitios web requieren autenticación para acceder a ellos, puede elegir entre autenticación básica, NTLM/Kerberos, SAML o de formulario. En caso contrario, elija la opción de no autenticación.
nota
Si más adelante quieres editar tu fuente de datos para cambiar la raíz URLs con la autenticación a los mapas de sitio, debes crear una nueva fuente de datos. Amazon Kendra configura la fuente de datos con la información de URLs punto final que figura en el Secrets Manager secreto para la autenticación y, por lo tanto, no puede volver a configurar la fuente de datos al cambiar a mapas de sitio.
-
AWS Secrets Manager secreto: si sus sitios web requieren la misma autenticación para acceder a los sitios web, elija un secreto existente o cree uno nuevo Secrets Manager para almacenar las credenciales de su sitio web. Si decides crear un secreto nuevo, se abrirá una ventana AWS Secrets Manager secreta.
Si eligió la autenticación Básica o NTLM/Kerberos, introduzca un nombre para el secreto, además del nombre de usuario y la contraseña. El protocolo de autenticación NTLM incluye el hash de contraseñas y el protocolo de autenticación de Kerberos incluye el cifrado de contraseñas.
Si eligió la autenticación SAML o Formularios, introduzca un nombre para el secreto, además del nombre de usuario y la contraseña. XPath Utilízalo para el campo de nombre de usuario (y XPath para el botón de nombre de usuario si utilizas SAML). XPaths Utilícelo para el campo y el botón de contraseña y para la URL de la página de inicio de sesión. Puede encontrar los elementos XPaths (lenguaje de rutas XML) utilizando las herramientas de desarrollo de su navegador web. XPaths suelen seguir este formato:
//tagname[@Attribute='Value']
.
-
-
Proxy web (opcional): introduzca el nombre de host y el número de puerto del servidor proxy que desee utilizar para conectarse a sitios web internos. Por ejemplo, el nombre de host de https://a.example.com/page1.htmles»a.example.com«y el número de puerto es 443, el puerto estándar para HTTPS. Si se requieren credenciales de proxy web para conectarse a un servidor de sitios web, puede crear uno AWS Secrets Manager que almacene las credenciales.
-
Nube privada virtual (VPC): puede optar por utilizar una VPC. Si es así, debe agregar Subredes y Grupos de seguridad de VPC.
-
IAM rol: elija un IAM rol existente o cree uno nuevo IAM para acceder a las credenciales de su repositorio e indexar el contenido.
nota
IAM los roles utilizados para los índices no se pueden usar para las fuentes de datos. Si no está seguro de si un rol existente se utiliza para un índice o para las preguntas frecuentes, elija Crear un nuevo rol para evitar errores.
-
Elija Next (Siguiente).
-
-
En la página Configurar ajustes de sincronización, introduzca la siguiente información:
-
Ámbito de sincronización: establezca límites para el rastreo de páginas web, incluidos sus dominios, tamaños de archivo y enlaces, y filtre URLs mediante patrones de expresiones regulares.
-
(Opcional) Rango de dominios de rastreo: elija si desea rastrear solo los dominios del sitio web, los dominios con subdominios o rastrear también otros dominios a los que enlazan las páginas web. De forma predeterminada, Amazon Kendra solo rastrea los dominios de los sitios web que deseas rastrear.
-
(Opcional) Configuración adicional: configure los siguientes ajustes:
-
Profundidad de rastreo: la “profundidad” o el número de niveles desde el nivel inicial hasta el de rastreo. Por ejemplo, la página URL semilla tiene la profundidad 1 y todos los hipervínculos de esta página que también se rastreen tienen la profundidad 2.
-
Tamaño máximo de archivo: tamaño máximo en MB de una página web o archivo adjunto que se deben rastrear.
-
Número máximo de enlaces por página: el número máximo de enlaces que URLs se pueden rastrear en una sola página web.
-
Limitación máxima de la velocidad de rastreo: número máximo de URLs rastreados por servidor de sitio web por minuto.
-
Archivos: elija rastrear los archivos a los que enlazan las páginas web.
-
Rastrear e indexar URLs: añada patrones de expresiones regulares para incluir o excluir el rastreo de determinadas URLs páginas web con direcciones URL y la indexación de cualquier hipervínculo.
-
-
-
Modo de sincronización: elija cómo desea actualizar el índice cuando cambie el contenido del origen de datos. Al sincronizar la fuente de datos con ella Amazon Kendra por primera vez, todo el contenido se rastrea e indexa de forma predeterminada. Debes realizar una sincronización completa de los datos si la sincronización inicial ha fallado, incluso si no seleccionas la sincronización completa como opción de modo de sincronización.
-
Sincronización completa: indexa todo el contenido de forma inmediata y reemplaza el contenido existente cada vez que la fuente de datos se sincronice con el índice.
-
Sincronización nueva, modificada o eliminada: indexe solo el contenido nuevo, modificado y eliminado cada vez que la fuente de datos se sincronice con el índice. Amazon Kendra puede usar el mecanismo de la fuente de datos para realizar un seguimiento de los cambios en el contenido e indexar el contenido que ha cambiado desde la última sincronización.
-
-
Programa de ejecución de sincronización: en Frecuencia, elija la frecuencia con la que Amazon Kendra se sincronizará con el origen de datos.
-
Elija Next (Siguiente).
-
-
En la página Establecer asignaciones de campos, especifique la siguiente información:
-
Seleccione entre los campos predeterminados Amazon Kendra generados por las páginas web y los archivos que desee asignar a su índice.
-
Elija Next (Siguiente).
-
-
En la página Revisar y crear, compruebe que la información que ha introducido es correcta y, a continuación, seleccione Añadir origen de datos. También puede elegir editar la información desde esta página. El origen de datos aparecerá en la página Orígenes de datos una vez que el origen de datos se haya agregado correctamente.