Las traducciones son generadas a través de traducción automática. En caso de conflicto entre la traducción y la version original de inglés, prevalecerá la version en inglés.
Amazon Kendra Conector Web Crawler v1.0
Puede utilizar Amazon Kendra Web Crawler para rastrear e indexar páginas web.
Solo puede rastrear sitios web de cara al público y sitios web que utilicen el protocolo de comunicación segura Hypertext Transfer Protocol Secure (HTTPS). Si recibe un error al rastrear un sitio web, es posible que el sitio web esté bloqueado para que no pueda rastrearse. Para rastrear sitios web internos, puede configurar un proxy web. El proxy web debe estar orientado al público.
Al seleccionar los sitios web que se van a indexar, se debe respetar la Política de uso aceptable de Amazon
nota
El uso indebido de Amazon Kendra Web Crawler para rastrear agresivamente sitios web o páginas web que no son de su propiedad no se considera un uso aceptable.
Para solucionar problemas del conector de fuente de datos del rastreador Amazon Kendra web, consulte. Solución de problemas con los orígenes de datos
Características admitidas
-
Proxy de web
-
Filtros de inclusión/exclusión
Requisitos previos
Antes de poder usarlo Amazon Kendra para indexar sus sitios web, compruebe los detalles de sus sitios web y AWS cuentas.
Para sus sitios web, asegúrese de que:
-
Has copiado la raíz o el mapa URLs del sitio web de los sitios web que quieres indexar.
-
Para los sitios web que requieren una autenticación básica: Apuntó el nombre de usuario y la contraseña y copió el nombre de host del sitio web y el número de puerto.
-
Opcional: copió el nombre de host del sitio web y el número de puerto si quiere usar un proxy web para conectarse a los sitios web internos que desea rastrear. El proxy web debe estar orientado al público. Amazon Kendra admite la conexión a servidores proxy web respaldados por una autenticación básica o puede conectarse sin autenticación.
-
Compruebe que cada documento de página web que desea indexar es único y que se encuentra entre otros orígenes de datos que piensa utilizar para el mismo índice. Cada origen de datos que desee utilizar para un índice no debe contener el mismo documento en varios orígenes de datos. IDs Los documentos son globales para un índice y deben ser únicos por índice.
En su AWS cuenta, asegúrese de tener:
-
Creó un Amazon Kendra índice y, si utiliza la API, anotó el ID del índice.
-
Creó un IAM rol para su fuente de datos y, si usa la API, anotó el ARN del IAM rol.
nota
Si cambias el tipo de autenticación y las credenciales, debes actualizar tu IAM rol para acceder al ID AWS Secrets Manager secreto correcto.
-
En el caso de los sitios web que requieren autenticación, o si utilizan un proxy web con autenticación, guardan las credenciales de autenticación en AWS Secrets Manager secreto y, si utilizan la API, anotan el ARN del secreto.
nota
Le recomendamos que actualice o modifique con regularidad las credenciales y el secreto. Por su propia seguridad, proporcione solo el nivel de acceso necesario. No se recomienda volver a utilizar las credenciales y los datos secretos en varios orígenes de datos ni en las versiones 1.0 y 2.0 del conector (si procede).
Si no tienes un IAM rol o secreto existente, puedes usar la consola para crear un nuevo IAM rol y un Secrets Manager secreto al conectar tu web crawler fuente de datos a Amazon Kendra. Si utiliza la API, debe proporcionar el ARN de un IAM rol y un Secrets Manager secreto existentes y un ID de índice.
Instrucciones de conexión
Para conectarse Amazon Kendra a su web crawler fuente de datos, debe proporcionar los detalles necesarios de su web crawler fuente de datos para que Amazon Kendra pueda acceder a sus datos. Si aún no lo ha configurado web crawler para Amazon Kendra verRequisitos previos.
Para conectarse Amazon Kendra a web crawler
-
Inicie sesión en la Amazon Kendra consola AWS Management Console y ábrala
. -
En el panel de navegación izquierdo, elija Índices y, a continuación, elija el índice que desee usar de la lista de índices.
nota
Puede elegir configurar o editar los ajustes de Control de acceso de usuarios en la Configuración del índice.
-
En la página Introducción, seleccione Agregar origen de datos.
-
En la página Añadir fuente de datos, selecciona el conector Web Crawler y, a continuación, selecciona Añadir conector. Si utilizas la versión 2 (si corresponde), elige el conector para rastreadores web con la etiqueta «V2.0".
-
En la página Especificar detalles del origen de datos, introduzca la siguiente información:
-
En Nombre y descripción, en Nombre del origen de datos: introduzca un nombre para el origen de datos. Puede incluir guiones, pero no espacios.
-
(Opcional) Descripción: introduzca una descripción opcional para el origen de datos.
-
En el idioma predeterminado: elija un idioma para filtrar los documentos para el índice. A menos que especifique lo contrario, el idioma predeterminado es el inglés. El idioma especificado en los metadatos del documento anula el idioma seleccionado.
-
En Etiquetas, para añadir una nueva etiqueta: incluya etiquetas opcionales para buscar y filtrar sus recursos o realizar un seguimiento de sus AWS costes.
-
Elija Next (Siguiente).
-
-
En la página Definir acceso y seguridad, introduzca la siguiente información:
-
En Source, elige entre los mapas de sitio Source URLs y Source según tu caso de uso e introduce los valores de cada uno.
Puedes añadir hasta 10 mapas de sitio fuente URLs y tres mapas de sitio.
nota
Si quieres rastrear un mapa del sitio, comprueba que la URL base o raíz sea la misma que la que URLs aparece en la página del mapa del sitio. Por ejemplo, si la URL de tu mapa del sitio es https://example.com/sitemap-page.html, las que URLs aparecen en esta página del mapa del sitio también deben usar la URL base»https://example.com/".
-
(Opcional) Para el Proxy web, introduzca la siguiente información:
-
Nombre de host: el nombre de host donde se requiere el proxy web.
-
Número de puerto: puerto utilizado por el protocolo de transporte de URL del host. El número de puerto debe ser un valor numérico entre 0 y 65535.
-
Para las credenciales del proxy web: si su conexión de proxy web requiere autenticación, elija un secreto existente o cree uno nuevo para almacenar sus credenciales de autenticación. Si decide crear un secreto nuevo, se abrirá una ventana de secreto de AWS Secrets Manager .
-
Introduzca la siguiente información en la ventana Crear un secreto de AWS Secrets Manager Secrets Manager :
-
Nombre del secreto: un nombre para su secreto. El prefijo 'AmazonKendra-WebCrawler-'se añade automáticamente a tu nombre secreto.
-
Para el nombre de usuario y la contraseña: introduzca estas credenciales de autenticación básicas para sus sitios web.
-
Seleccione Guardar.
-
-
-
(Opcional) Hosts con autenticación: seleccione esta opción para agregar hosts adicionales con autenticación.
-
IAM rol: elige un IAM rol existente o crea uno nuevo IAM para acceder a las credenciales de tu repositorio y al contenido del índice.
nota
IAM los roles utilizados para los índices no se pueden usar para las fuentes de datos. Si no está seguro de si un rol existente se utiliza para un índice o para las preguntas frecuentes, elija Crear un nuevo rol para evitar errores.
-
Elija Next (Siguiente).
-
-
En la página Configurar ajustes de sincronización, introduzca la siguiente información:
-
Rango de rastreo: elige el tipo de páginas web que desea rastrear.
-
Profundidad de rastreo: seleccione el número de niveles de la URL inicial que Amazon Kendra se deben rastrear.
-
En Configuración avanzada de rastreo y Configuración adicional, introduzca la siguiente información:
-
Tamaño máximo de archivo: tamaño máximo de página web o archivo adjunto que se deben rastrear. Mínimo 0,000001 MB (1 byte). Máximo de 50 MB.
-
Número máximo de enlaces por página: número máximo de enlaces rastreados por página. Los enlaces se rastrean en orden de aparición. Mínimo 1. link/page. Maximum 1000 links/page
-
Limitación máxima: número máximo de URLs rastreados por nombre de host por minuto. Mínimo 1 por host. URLs name/minute. Maximum 300 URLs/host name/minute
-
Patrones de expresiones regulares: añada patrones de expresiones regulares para incluir o excluir algunos. URLs Puede agregar hasta 100 patrones.
-
-
Programación de ejecución sincronizada, para Frecuencia: elija la frecuencia con la que Amazon Kendra se sincronizará con la fuente de datos.
-
Elija Next (Siguiente).
-
-
En la página Revisar y crear, compruebe que la información que ha introducido es correcta y, a continuación, seleccione Añadir origen de datos. También puede elegir editar la información desde esta página. El origen de datos aparecerá en la página Orígenes de datos una vez que el origen de datos se haya agregado correctamente.
Más información
Para obtener más información sobre la integración Amazon Kendra con su web crawler fuente de datos, consulte: