Características admitidas Requisitos previos Instrucciones de conexión Más información

Amazon Kendra Conector Web Crawler v1.0

Puede utilizar Amazon Kendra Web Crawler para rastrear e indexar páginas web.

Solo puede rastrear sitios web de cara al público y sitios web que utilicen el protocolo de comunicación segura Hypertext Transfer Protocol Secure (HTTPS). Si recibe un error al rastrear un sitio web, es posible que el sitio web esté bloqueado para que no pueda rastrearse. Para rastrear sitios web internos, puede configurar un proxy web. El proxy web debe estar orientado al público.

Al seleccionar los sitios web que se van a indexar, se debe respetar la Política de uso aceptable de Amazon y todas las demás condiciones de Amazon. Recuerde que solo debe usar Amazon Kendra Web Crawler para indexar sus propias páginas web o páginas web para las que tenga autorización para indexar. Para obtener información sobre cómo impedir que Amazon Kendra Web Crawler indexe sus sitios web, consulte. Configuración del archivo robots.txt para el rastreador web de Amazon Kendra

nota

El uso indebido de Amazon Kendra Web Crawler para rastrear agresivamente sitios web o páginas web que no son de su propiedad no se considera un uso aceptable.

Para solucionar problemas del conector de fuente de datos del rastreador Amazon Kendra web, consulte. Solución de problemas con los orígenes de datos

Características admitidas

Proxy de web
Filtros de inclusión/exclusión

Requisitos previos

Antes de poder usarlo Amazon Kendra para indexar sus sitios web, compruebe los detalles de sus sitios web y AWS cuentas.

Para sus sitios web, asegúrese de que:

Has copiado la raíz o el mapa URLs del sitio web de los sitios web que quieres indexar.
Para los sitios web que requieren una autenticación básica: Apuntó el nombre de usuario y la contraseña y copió el nombre de host del sitio web y el número de puerto.
Opcional: copió el nombre de host del sitio web y el número de puerto si quiere usar un proxy web para conectarse a los sitios web internos que desea rastrear. El proxy web debe estar orientado al público. Amazon Kendra admite la conexión a servidores proxy web respaldados por una autenticación básica o puede conectarse sin autenticación.
Compruebe que cada documento de página web que desea indexar es único y que se encuentra entre otros orígenes de datos que piensa utilizar para el mismo índice. Cada origen de datos que desee utilizar para un índice no debe contener el mismo documento en varios orígenes de datos. IDs Los documentos son globales para un índice y deben ser únicos por índice.

En su AWS cuenta, asegúrese de tener:

Creó un Amazon Kendra índice y, si utiliza la API, anotó el ID del índice.
Creó un IAM rol para su fuente de datos y, si usa la API, anotó el ARN del IAM rol.

nota
Si cambias el tipo de autenticación y las credenciales, debes actualizar tu IAM rol para acceder al ID AWS Secrets Manager secreto correcto.
En el caso de los sitios web que requieren autenticación, o si utilizan un proxy web con autenticación, guardan las credenciales de autenticación en AWS Secrets Manager secreto y, si utilizan la API, anotan el ARN del secreto.

nota
Le recomendamos que actualice o modifique con regularidad las credenciales y el secreto. Por su propia seguridad, proporcione solo el nivel de acceso necesario. No se recomienda volver a utilizar las credenciales y los datos secretos en varios orígenes de datos ni en las versiones 1.0 y 2.0 del conector (si procede).

Si no tiene un IAM rol o secreto existente, puede usar la consola para crear un nuevo IAM rol y un Secrets Manager secreto al conectar su fuente de web crawler datos. Amazon Kendra Si utiliza la API, debe proporcionar el ARN de un IAM rol y un Secrets Manager secreto existentes y un ID de índice.

Instrucciones de conexión

Para conectarse Amazon Kendra a su fuente de web crawler datos, debe proporcionar los detalles necesarios de la fuente de web crawler datos para que Amazon Kendra pueda acceder a sus datos. Si aún no lo ha configuradoweb crawler, Amazon Kendra consulteRequisitos previos.

Console

Para conectarse Amazon Kendra a web crawler

Inicie sesión en la Amazon Kendra consola AWS Management Console y ábrala.
En el panel de navegación izquierdo, elija Índices y, a continuación, elija el índice que desee usar de la lista de índices.

nota
Puede elegir configurar o editar los ajustes de Control de acceso de usuarios en la Configuración del índice.
En la página Introducción, seleccione Agregar origen de datos.
En la página Añadir fuente de datos, selecciona el conector Web Crawler y, a continuación, selecciona Añadir conector. Si utilizas la versión 2 (si corresponde), elige el conector para rastreadores web con la etiqueta «V2.0".
En la página Especificar detalles del origen de datos, introduzca la siguiente información:
1. En Nombre y descripción, en Nombre del origen de datos: introduzca un nombre para el origen de datos. Puede incluir guiones, pero no espacios.
2. (Opcional) Descripción: introduzca una descripción opcional para el origen de datos.
3. En el idioma predeterminado: elija un idioma para filtrar los documentos para el índice. A menos que especifique lo contrario, el idioma predeterminado es el inglés. El idioma especificado en los metadatos del documento anula el idioma seleccionado.
4. En Etiquetas, para añadir una nueva etiqueta: incluya etiquetas opcionales para buscar y filtrar sus recursos o realizar un seguimiento de sus AWS costes.
5. Elija Siguiente.
En la página Definir acceso y seguridad, introduzca la siguiente información:
1. En Source, elige entre los mapas de sitio Source URLs y Source según tu caso de uso e introduce los valores de cada uno.
  
  Puedes añadir hasta 10 mapas de sitio de origen URLs y tres.
  
  nota
  Si quieres rastrear un mapa del sitio, comprueba que la URL base o raíz sea la misma que la que URLs aparece en la página del mapa del sitio. Por ejemplo, si la URL de tu mapa del sitio es https://example.com/sitemap-page.html, la que URLs aparece en esta página también debería usar la URL base "https://example.com/».
2. (Opcional) Para el Proxy web, introduzca la siguiente información:
  1. Nombre de host: el nombre de host donde se requiere el proxy web.
  2. Número de puerto: puerto utilizado por el protocolo de transporte de URL del host. El número de puerto debe ser un valor numérico entre 0 y 65535.
  3. Para las credenciales del proxy web: si su conexión de proxy web requiere autenticación, elija un secreto existente o cree uno nuevo para almacenar sus credenciales de autenticación. Si decide crear un secreto nuevo, se abrirá una ventana de secreto de AWS Secrets Manager .
  4. Introduzca la siguiente información en la ventana Crear un secreto de AWS Secrets Manager Secrets Manager :
    1. Nombre del secreto: un nombre para su secreto. El prefijo “AmazonKendra-WebCrawler-” se añade automáticamente al nombre del secreto.
    2. Para el nombre de usuario y la contraseña: introduzca estas credenciales de autenticación básicas para sus sitios web.
    3. Seleccione Save.
3. (Opcional) Hosts con autenticación: seleccione esta opción para agregar hosts adicionales con autenticación.
4. IAM rol: elige un IAM rol existente o crea uno nuevo IAM para acceder a las credenciales de tu repositorio y al contenido del índice.
  
  nota
  IAM los roles utilizados para los índices no se pueden usar para las fuentes de datos. Si no está seguro de si un rol existente se utiliza para un índice o para las preguntas frecuentes, elija Crear un nuevo rol para evitar errores.
5. Elija Siguiente.
En la página Configurar ajustes de sincronización, introduzca la siguiente información:
1. Rango de rastreo: elige el tipo de páginas web que desea rastrear.
2. Profundidad de rastreo: seleccione el número de niveles de la URL inicial que Amazon Kendra se deben rastrear.
3. En Configuración avanzada de rastreo y Configuración adicional, introduzca la siguiente información:
  1. Tamaño máximo de archivo: tamaño máximo de página web o archivo adjunto que se deben rastrear. Mínimo 0,000001 MB (1 byte). Máximo de 50 MB.
  2. Número máximo de enlaces por página: número máximo de enlaces rastreados por página. Los enlaces se rastrean en orden de aparición. Mínimo 1. link/page. Maximum 1000 links/page
  3. Limitación máxima: número máximo de URLs rastreados por nombre de host por minuto. Mínimo 1. URLs/host name/minute. Maximum 300 URLs/host name/minute
  4. Patrones de expresiones regulares: añada patrones de expresiones regulares para incluir o excluir algunos. URLs Puede agregar hasta 100 patrones.
4. Programación de ejecución sincronizada, para Frecuencia: elija la frecuencia con la que Amazon Kendra se sincronizará con la fuente de datos.
5. Elija Siguiente.
En la página Revisar y crear, compruebe que la información que ha introducido es correcta y, a continuación, seleccione Añadir origen de datos. También puede elegir editar la información desde esta página. El origen de datos aparecerá en la página Orígenes de datos una vez que el origen de datos se haya agregado correctamente.

API

Para conectarse a Amazon Kendra web crawler

Debe especificar lo siguiente mediante la WebCrawlerConfigurationAPI:

URLs—Especifique la semilla o el punto URLs de partida de los sitios web o el mapa del sitio web URLs de los sitios web que desee rastrear mediante SeedUrlConfigurationy. SiteMapsConfiguration

nota
Si quieres rastrear un mapa del sitio, comprueba que la URL base o raíz sea la misma que la que URLs aparece en la página del mapa del sitio. Por ejemplo, si la URL de tu mapa del sitio es https://example.com/sitemap-page.html, la que URLs aparece en esta página también debería usar la URL base "https://example.com/».
Nombre de recurso de Amazon (ARN) secreto: si un sitio web requiere autenticación básica, usted proporciona el nombre del host, el número de puerto y un secreto que almacena sus credenciales de autenticación básica de su nombre de usuario y contraseña. El ARN secreto se proporciona mediante la API AuthenticationConfiguration. El secreto se almacena en una estructura JSON con las siguientes claves:
```
{
    "username": "user name",
    "password": "password"
}
```
También puede proporcionar credenciales de proxy web mediante un secreto de AWS Secrets Manager . Utilice la API ProxyConfiguration para proporcionar el nombre de host y el número de puerto del sitio web y, opcionalmente, el secreto que almacena sus credenciales de proxy web.
IAM rol: especifique RoleArn cuándo llama CreateDataSource para proporcionar a un IAM rol permisos para acceder a su Secrets Manager secreto y para llamar al público requerido APIs para el conector del rastreador web y. Amazon Kendra Para obtener más información, consulte Roles de IAM para orígenes de datos del rastreador web.

También puede añadir las siguientes características opcionales:

Modo de rastreo: elija si desea rastrear solo los nombres de host de los sitios web o los nombres de host con subdominios, o también rastrear otros dominios a los que enlazan las páginas web.
La “profundidad” o número de niveles desde el nivel semilla hasta el nivel rastreo. Por ejemplo, la página URL semilla tiene la profundidad 1 y todos los hipervínculos de esta página que también se rastreen tienen la profundidad 2.
El número máximo de páginas web que URLs se pueden rastrear en una sola página web.
El tamaño máximo en MB de una página web a rastrear.
El número máximo de URLs rastreados por servidor de sitio web por minuto.
El host del proxy web y el número de puerto para conectarse a sitios web internos y rastrearlos. Por ejemplo, el nombre de host de https://a.example.com/page1.html es “a.example.com“ y el número de puerto es 443, el puerto estándar para HTTPS. Si se requieren credenciales de proxy web para conectarse a un host de sitio web, puede crear un AWS Secrets Manager que almacene las credenciales.
La información de autenticación para acceder y rastrear sitios web que requieren la autenticación del usuario.
Puede extraer las metaetiquetas HTML como campos con la herramienta de enriquecimiento de documentos personalizados. Para más información, consulte Personalización de los metadatos del documento durante el proceso de ingesta. Para ver un ejemplo de cómo extraer metaetiquetas HTML, consulte los ejemplos de CDE.
Filtros de inclusión y exclusión: especifique si desea incluir o excluir determinados filtros. URLs

nota
La mayoría de los orígenes de datos utilizan patrones de expresiones regulares, que son patrones de inclusión o exclusión denominados filtros. Si especifica un filtro de inclusión, solo se indexará el contenido que coincida con el filtro de inclusión. Los documentos que no coincidan con el filtro de inclusión no se indexan. Si especifica un filtro de inclusión y exclusión, los documentos que coincidan con el filtro de exclusión no se indexarán, aunque coincidan con el filtro de inclusión.

Más información

Para obtener más información sobre la integración Amazon Kendra con la fuente web crawler de datos, consulte:

Reimagine el descubrimiento de conocimientos con Web Amazon Kendra Crawler

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Amazon Kendra Rastreador web

Amazon Kendra Conector Web Crawler v2.0