Qué puede hacer Antes de empezar Prepara el acceso y la autenticación del sitio web Configure la integración de Web Crawler Configure el rastreo Gestione las bases de conocimiento Resolución de problemas

Integración de Web Crawler

Con la integración de Web Crawler en Amazon Quick Suite, puede crear bases de conocimiento a partir del contenido del sitio web rastreando e indexando páginas web. Esta integración admite las capacidades de ingesta de datos con diferentes opciones de autenticación según el nivel de usuario.

Qué puede hacer

Los usuarios de Web Crawler pueden hacer preguntas sobre el contenido almacenado en sitios web y páginas web. Por ejemplo, los usuarios pueden consultar sitios de documentación, bases de conocimiento o buscar información específica en varias páginas web. La integración permite a los usuarios acceder rápidamente a la información del contenido web y comprenderla, independientemente de su ubicación o tipo, al tiempo que proporciona detalles contextuales, como las fechas de publicación, el historial de modificaciones y la propiedad de las páginas, lo que contribuye a descubrir la información de manera más eficiente y a tomar decisiones mejor informadas.

nota

La integración de Web Crawler solo admite la ingesta de datos. No proporciona funciones de acción para administrar sitios web o servicios web.

Antes de empezar

Antes de configurar la integración de Web Crawler, asegúrese de disponer de lo siguiente:

Sitio web URLs para rastrear e indexar.
Suscripción a Amazon Quick Suite Enterprise
El sitio web que deseas rastrear debe ser público y no puede estar protegido por un firewall ni requerir complementos de navegador especiales para conectarse.

Prepara el acceso y la autenticación del sitio web

Antes de configurar la integración en Amazon Quick Suite, prepare las credenciales de acceso a su sitio web. La integración de Web Crawler admite diferentes métodos de autenticación en función de su rol de usuario:

Sin autenticación

Disponible para todos los usuarios. Se usa para rastrear sitios web públicos que no requieren autenticación.

Autenticación básica

Autenticación básica HTTP estándar para sitios web seguros. La autenticación básica HTTP es una forma sencilla de proteger los recursos web al requerir un nombre de usuario y una contraseña. Cuando visite un sitio protegido mediante la autenticación básica, su navegador mostrará un cuadro de diálogo emergente en el que se le solicitarán sus credenciales.

Credenciales requeridas:

URL de la página de inicio de sesión: la URL de la página de inicio de sesión
Nombre de usuario: nombre de usuario de autenticación básico
Contraseña: contraseña de autenticación básica

Autenticación de formulario

Para sitios web que utilizan páginas de inicio de sesión basadas en formularios HTML.

El formulario está configurado para que lo especifique usted. XPath XPath (lenguaje de rutas XML) es un lenguaje de consulta que se utiliza para navegar por los elementos y atributos de un documento HTML o XML. XPath Para identificar un elemento de una página web, el usuario puede utilizar las herramientas de desarrollo de su navegador, a las que normalmente se accede haciendo clic con el botón derecho del ratón en el elemento deseado y seleccionando «Inspeccionar» o pulsando la tecla F12. Una vez resaltado el elemento en las herramientas de desarrollo, el usuario puede hacer clic con el botón derecho en el código HTML correspondiente, seleccionar «Copiar» y, a continuación, elegir «Copiar XPath» en el submenú. Esto genera una ruta única que identifica la ubicación exacta del elemento en la estructura del documento. El resultado XPath podría tener un aspecto parecido a //input [@id ='username'] o //button [@type ='submit'], donde las barras diagonales dobles (//) indican que la ruta puede empezar en cualquier parte del documento y los corchetes contienen atributos que ayudan a identificar el elemento específico.

Información requerida:

URL de la página de inicio de sesión: URL del formulario de inicio de sesión (por ejemplo,https://example.com/login)
Nombre de usuario: nombre de usuario de inicio
Contraseña: contraseña de inicio de sesión
Campo de nombre de usuario XPath: XPath al campo de entrada de nombre de usuario (por ejemplo,//input[@id='username'])
Botón de nombre de usuario XPath (opcional): XPath al campo del botón de nombre de usuario (por ejemplo,//input[@id='username_button'])
Campo de contraseña XPath: XPath al campo de entrada de contraseña (por ejemplo,//input[@id='password'])
Botón de contraseña XPath: XPath al botón de contraseña (por ejemplo,//button[@type='password'])

Autenticación SAML

Para sitios web que utilizan la autenticación de inicio de sesión único basada en SAML.

La autenticación SAML (Security Assertion Markup Language) es un estándar de identidad federado que permite el inicio de sesión único (SSO) al permitir a los usuarios autenticarse a través de un proveedor de identidad centralizado en lugar de introducir las credenciales directamente en cada aplicación. A diferencia de la autenticación con formularios tradicional, en la que los usuarios escriben su nombre de usuario y contraseña en los campos de la página de inicio de sesión de la aplicación, SAML redirige a los usuarios al proveedor de identidad de su organización (como Microsoft Azure AD u Okta) para autenticarse y, a continuación, devuelve un token seguro a la aplicación para conceder el acceso. Este enfoque proporciona una experiencia de usuario perfecta en múltiples aplicaciones, una administración de usuarios centralizada para los administradores de TI y una seguridad mejorada a través de funciones como la autenticación de múltiples factores, mientras que la autenticación de formularios requiere una administración de credenciales independiente para cada aplicación individual.

Información requerida:

URL de la página de inicio de sesión: URL de la página de inicio de sesión de SAML
Nombre de usuario: nombre de usuario de SAML
Contraseña: contraseña SAML
Campo de nombre de usuario XPath: XPath al campo de entrada de nombre de usuario (por ejemplo,//input[@id='username'])
Botón de nombre de usuario XPath (opcional): XPath al campo del botón de nombre de usuario (por ejemplo,//input[@id='username_button'])
Campo de contraseña XPath: XPath al campo de entrada de contraseña (por ejemplo,//input[@id='password'])
Botón de contraseña XPath: XPath al botón de contraseña (por ejemplo,//button[@type='password'])

XPath ejemplos de configuración

Usa estos XPath ejemplos para configurar la autenticación de formularios y SAML:



Username field examples:
//input[@id='username']
//input[@name='user']
//input[@class='username-field']

Password field examples:
//input[@id='password']
//input[@name='pass']
//input[@type='password']

Submit button examples:
//button[@type='submit']
//input[@type='submit']
//button[contains(text(), 'Login')]

Configure la integración de Web Crawler

Tras preparar los requisitos de acceso a su sitio web, cree la integración de Web Crawler en Amazon Quick Suite.

En la consola de Amazon Quick Suite, selecciona Integraciones.
Elija Web Crawler entre las opciones de integración y haga clic en el botón Añadir (junto con el botón «+»).
Selecciona Acceder a los datos desde Web Crawler. La integración de Web Crawler solo permite el acceso a los datos; la ejecución de acciones no está disponible para el rastreo web.
Configure los detalles de la integración y el método de autenticación y, a continuación, cree bases de conocimiento según sea necesario.
1. Seleccione el tipo de autenticación para la integración de su rastreador web.
2. Complete los detalles requeridos en función del método de autenticación que haya seleccionado.
3. Selecciona Crear y continuar.
4. Complete el nombre y la descripción de su base de conocimientos.
5. Añada el contenido que URLs desee rastrear.
6. Seleccione Crear.

Tras hacer clic en crear, la sincronización de datos se inicia automáticamente.

Configure el rastreo

Puede configurar qué sitios web y páginas rastrear y cómo filtrar el contenido.

Configuración URLs y fuentes de contenido

Configure qué sitios web y páginas desea rastrear:

Directo URLs

Especifique la persona URLs a la que desee rastrear:



https://example.com/docs
https://example.com/blog
https://example.com/support

Límite: máximo 10 URLs por conjunto de datos

Filtros de contenido y configuración de rastreo

Configuración del ámbito de rastreo

Para ver esta configuración, primero debe configurar una base de conocimientos y, a continuación, examinar la opción de configuración avanzada.

Profundidad de rastreo

Rango: 0-10 (predeterminado: 1)
0 = solo se ha especificado el rastreo URLs
1 = incluir páginas enlazadas de un nivel de profundidad
Los valores más altos hacen que los enlaces se adentren más profundamente en el sitio

Número máximo de enlaces por página

Predeterminado: 1000
Máximo: 1000
Controla el número de enlaces que se deben seguir desde cada página

Tiempo de espera

Valor predeterminado: 1
El tiempo que el rastreador web esperará a ver cada página después de que ésta alcance el estado de «página lista». Esto resulta útil para las páginas que tienen características de carga dinámicas de JavaScript, donde la página tiene bloques de contenido que se cargan después de cargar la plantilla principal. Aumente el tiempo de espera si tiene contenido visualmente rico o prevé tiempos de carga elevados.

Gestione las bases de conocimiento

Tras configurar la integración del rastreador web, puede crear y gestionar bases de conocimiento a partir del contenido del sitio web rastreado.

Edite las bases de conocimiento existentes

Puede modificar sus bases de conocimiento de Web Crawler existentes:

En la consola de Amazon Quick Suite, elija Bases de conocimiento.
Seleccione la base de conocimientos de Web Crawler de la lista.
Selecciona el icono de tres puntos en Acciones y, a continuación, selecciona Editar base de conocimientos.
Actualice los ajustes de configuración según sea necesario y seleccione Guardar.

Cree bases de conocimiento adicionales

Puede crear varias bases de conocimiento a partir de la misma integración de Web Crawler:

En la consola de Amazon Quick Suite, selecciona Integraciones y, a continuación, selecciona la pestaña Datos.
Elija su integración de Web Crawler existente de la lista.
Selecciona el icono de tres puntos en Acciones y, a continuación, selecciona Crear base de conocimientos.
Configure los ajustes de la base de conocimientos y seleccione Crear.

Para obtener información detallada sobre las opciones de configuración de la base de conocimientos, consulteParámetros de configuración comunes.

Rastreo de archivos adjuntos y archivos

Controle si el sistema procesa los archivos y adjuntos enlazados desde páginas web:

Habilitar el rastreo de archivos adjuntos: seleccione esta opción para rastrear e indexar los archivos y adjuntos que se encuentran en las páginas web PDFs, como documentos y archivos multimedia.

Comportamiento de rastreo y configuración de sincronización

La integración de Web Crawler sigue estas prácticas de rastreo:

Modelo de sincronización incremental: la primera sincronización realiza un rastreo completo y las sincronizaciones posteriores solo capturan los cambios
Reintento automático: lógica de reintento integrada para las solicitudes fallidas
Tratamiento de duplicados: detección y tratamiento automáticos de URLs
Identificación del rastreador: se identifica con la cadena de agente de usuario «aws-quick-on-behalf-of-<UUID>» en los encabezados de las solicitudes

Conformidad con Robots.txt

Web Crawler respeta el protocolo robots.txt y respeta las directivas y el agente de usuario. allow/disallow Esto le permite controlar la forma en que el rastreador accede a su sitio.

Cómo funciona la comprobación de robots.txt

Comprobación a nivel de host: Web Crawler lee los archivos robots.txt en el nivel de host (por ejemplo, example.com/robots.txt)
Compatibilidad con varios hosts: para los dominios con varios hosts, Web Crawler respeta las reglas de robots para cada host por separado
Comportamiento alternativo: si Web Crawler no puede recuperar el archivo robots.txt debido a un bloqueo, errores de análisis o tiempos de espera, se comportará como si robots.txt no existiera y rastreará el sitio

Campos robots.txt compatibles

Web Crawler reconoce estos campos de robots.txt (los nombres de los campos no distinguen entre mayúsculas y minúsculas, los valores distinguen entre mayúsculas y minúsculas):

user-agent: Identifica a qué rastreador se aplican las reglas
allow: Una ruta URL que se puede rastrear
disallow: Una ruta URL que no se puede rastrear
sitemap: La URL completa de un mapa del sitio
crawl-delay: Cantidad de tiempo especificada (en segundos) que debe transcurrir entre las solicitudes a tu sitio web

Soporte para metaetiquetas

Web Crawler admite metaetiquetas de robots a nivel de página que puede utilizar para controlar el uso de sus datos. Puede especificar la configuración a nivel de página incluyendo una metaetiqueta en las páginas HTML o en un encabezado HTTP.

Metaetiquetas compatibles

noindex: No indexe la página. Si no especificas esta regla, es posible que la página esté indexada y apta para aparecer en las experiencias
nofollow: No sigas los enlaces de esta página. Si no especificas esta regla, Web Crawler puede usar los enlaces de la página para descubrirlas

Puede combinar varios valores mediante una coma (por ejemplo, «noindex, nofollow»).

nota

Para detectar las metaetiquetas, Web Crawler necesita acceder a tu página, así que no la bloquees con el archivo robots.txt para evitar que se vuelva a rastrear.

Resolución de problemas

Utilice esta sección para resolver problemas habituales relacionados con la integración de Web Crawler.

Errores de autenticación

Síntomas:

Mensajes de error que indican que no se puede autenticar
Respuestas HTTP 401/403
Bucles de redirección de páginas de inicio
Errores de tiempo de espera de la sesión

Pasos de resolución:

Compruebe que se puede acceder al sitio desde la AWS región en la que está configurada la instancia de Amazon Quick Suite
Compruebe la precisión de las credenciales y asegúrese de que no hayan caducado
Compruebe la disponibilidad y accesibilidad de los terminales de autenticación
Valide XPath las configuraciones probándolas en las herramientas para desarrolladores de navegadores
Revise los registros de red del navegador para comprender el flujo de autenticación
Asegúrese de que la URL de la página de inicio de sesión sea correcta y accesible
Pruebe la autenticación manualmente con las mismas credenciales

Problemas de acceso y conectividad

Síntomas:

Tiempos de espera de conexión y errores de red
Errores de red inalcanzables
Fallos en la resolución de DNS

Pasos de resolución:

Verifique la conectividad de la red con los sitios web de destino
Valide la accesibilidad del sitio:
- Compruebe la resolución de DNS de los dominios de destino
- Compruebe SSL/TLS la configuración y los certificados
- Si es posible, pruebe el acceso desde diferentes redes

Problemas de rastreo y contenido

Síntomas:

Contenido faltante o incompleto
Búsquedas incompletas o finalización anticipada
Errores de limitación de velocidad (429 respuestas)
El contenido no se indexa correctamente

Pasos de resolución:

Revise las restricciones de robots.txt:
- Compruebe las restricciones de rastreo en el archivo robots.txt
- Compruebe que el rastreador pueda acceder a las rutas de destino
- Asegúrese de que el cumplimiento de robots.txt no bloquee el contenido
Comprueba la limitación y la regulación de la velocidad:
- Supervise los encabezados de respuesta para obtener información sobre el límite de velocidad
- Implemente los retrasos de rastreo adecuados
Verifica los patrones y filtros de URL:
- Pruebe los patrones de expresiones regulares para comprobar su precisión
- Comprueba el formato y la estructura de las URL
- Valide la lógica include/exclude de los patrones
Revisa las restricciones de contenido:
- Comprueba si hay metaetiquetas no indexadas en las páginas
- Verifica la compatibilidad con los tipos de contenido
- Asegúrese de que el tamaño del contenido esté dentro de los límites
Actualiza el tiempo de espera a un valor adecuado para que el contenido se cargue en la página antes de que el rastreador intente rastrearla

Limitaciones conocidas

La integración de Web Crawler tiene las siguientes limitaciones:

Límites de URL: máximo 10 URLs, no se admite el mapa del sitio
Profundidad de rastreo: profundidad de rastreo máxima de 10 niveles
Requisitos de seguridad: se requiere HTTPS para las configuraciones de proxy web

Aviso JavaScript está desactivado o no está disponible en su navegador.

Para utilizar la documentación de AWS, debe estar habilitado JavaScript. Para obtener más información, consulte las páginas de ayuda de su navegador.

Convenciones del documento

Integración con Smartsheet

Integración de Zendesk